用pandas补充缺失的数据

最新推荐文章于 2024-02-21 13:53:54 发布

石榴号橘子

最新推荐文章于 2024-02-21 13:53:54 发布

阅读量258

点赞数 8

文章标签：深度学习 python pytorch

本文链接：https://blog.csdn.net/m0_74710085/article/details/134470263

版权

首先创建一个csv文件

保存在该文件夹下

import torch
import os
import pandas as pd
with open('data.csv','w') as f:#创建文件
    f.write('NumRooms,Ally,Price\n')#写入文件
    f.write('NA,Pave,127500\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,14000\n')

读取文件

使用pandas库读取文件

reader=pd.read_csv('data.csv')
print(reader)

可以得到结果

   NumRooms  Ally   Price
0       NaN  Pave  127500
1       4.0   NaN  178100
2       NaN   NaN   14000

其中NaN中空的数据

补全连续空值

inputs,outputs=reader.iloc[:,0:2],reader.iloc[:,2]
inputs=inputs.fillna(inputs.mean(numeric_only=True))#用平均值补全
print(inputs)

得到结果

   NumRooms  Ally
0       4.0  Pave
1       4.0   NaN
2       4.0   NaN

离散型结果

inputs=pd.get_dummies(inputs,dummy_na=True)
print(inputs)

我们可以用类别区分

NumRooms  Ally_Pave  Ally_nan
0       4.0          1         0
1       4.0          0         1
2       4.0          0         1

转化为tensor向量

X,y=torch.tensor(inputs.values),torch.tensor(outputs.values)
print(X,y)

tensor([[4., 1., 0.],
        [4., 0., 1.],
        [4., 0., 1.]], dtype=torch.float64) tensor([127500, 178100,  14000])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

石榴号橘子

关注关注

8
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
用pandas补充缺失的数据

使用pandas库读取文件。其中NaN中空的数据。
复制链接

扫一扫

Pandas 缺失数据处理大全（附代码）

a379749的博客

03-25

413

都什么年代了还在下载视频？非也非也，你永远不知道有些人就是喜欢收藏视频，比如我和正在读文章的你。今天就教你一招，一键下载各大视频网站视频。小破站、腾讯、爱奇艺、油管… 工具准备所用到的工具就是 you-get 这个库，话不多说，肯定得先安装一下。不用担心，安装也非常简单。 pip3 install you-get 没错，就是这么简单，接下来就是见证奇迹的时刻了。小试牛刀先来试试小破站的视频吧。应该没有人不喜欢在小破站看小姐姐跳舞吧。中国联通的这个极乐净土有接近两百万的播放。把地址栏中的的

30秒时间了解清楚pandas过滤、补全缺失值

weixin_48272043的博客

03-25

546

pandas对象的所有描述性统计信息默认情况下是排除缺失值的。在学习进行缺失值处理之前，我们先来看一下什么是缺失值，为什么会出现缺失值？缺失值—— 是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。（来源：百度百科）缺失值的出现是很正常的一种现象，首先我们要正视缺失值的存在，缺失值的出现一般来说有机械原因和人为原因，但在我们实际应用中，多说是我们人为的失误或错误的操作导致的缺失，缺失值的出现对于我们分析数据的过程不会产生过大的影响.

1 条评论您还未登录，请先登录后发表或查看评论

Pandas时间序列数据补全

最新发布

qq_44881930的博客

02-21

440

时间序列数据缺失，将其补全。如下图所示，数据存在缺失秒级的情况。

pandas 可视化补全上一篇

wo446100076的专栏

07-04

345

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef bar(): df=pd.DataFrame({'HEIGHT':[175,165,162,158,180],'AGE':[23,30,27,21,35],'SCORE':[80,100,70,85,65]}, ...

pandas之数据的分组与合并

柳小葱的博客

08-02

1698

1. 数据的分组之构建01矩阵先看看数据这里是一个csv的文件，里面有电影title和分类class两列我要做的事情就是统计class中属于a,b,c,d四类的电影各有多少，我会先构造01矩阵例如：在这个矩阵中，属于哪个类别的会取值为1，不属于则取值为0，最后将a,b,c,d各列相加，得出数据。当然01矩阵的用途还有很多，以后遇到会拿出来讲解。看看代码实现（python) import pandas as pd import numpy as np from matplotlib impo

pandas操作4（处理缺失值/位置索引）

kanchigo的博客

07-19

2236

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录插值one-hot位置索引其他操作插值通过.fillna()填充空值。 inputs = inputs.fillna(inputs.mean()) 插入其他值的平均数，防止出现数据过大的波动。 one-hot 有时输入的空值的含义是某个类别，比如说一个电脑的独显类型，如果是“NaN”那就代表这个电脑是没有独显的，可以将“NaN”视为⼀个类别。可以用.get_dummies()来生成两列one-hot。 inputs = pd

Pandas综合练习题一

01-04

Pandas结合numpy可以进行数据的上下限检查，例如，我们可以用`where()`或`mask()`函数设定条件过滤出异常值，或者直接使用`clip()`函数设定数据范围。对于更复杂的异常检测，可以使用统计方法如Z-score或IQR（四分位...

数据处理之缺失值填充

12-21

3. **均值、众数、中位数填充**：根据数据的特性，可以选择用均值、中位数或众数来填充缺失值。均值代表平均值，适用于正态分布或对称的数据；中位数则在数据有异常值时更稳定；众数适合类别变量或频率分布明显的...

Pandas使用

01-27

此外，Pandas的“自动对齐”特性，使得在合并或操作带有不同索引的Series时，能自动匹配并补充缺失值为NaN。接下来是DataFrame，它是Pandas的核心数据结构，可以看作是一个表格，包含多列（columns）和多行（index...

pandas分批读取大数据集教程

09-16

`pandas`库提供了一种灵活的方法，即分批读取数据集，以解决内存限制的问题。本教程将详细介绍如何利用`pandas`的这一功能来高效地处理大数据。在处理大型数据集时，直接一次性加载所有数据可能导致内存溢出，特别...

python数据预处理（1）———缺失值处理

12-21

除了上述方法，还有其他的填充策略，如使用热编码（one-hot encoding）处理分类变量的缺失值，或使用K近邻（KNN）算法基于邻近数据点的值来填充。选择哪种方法取决于数据的性质、问题的需求以及对模型性能的影响。在...

pandas 中补全数据的方式

zhanghuaren2003的博客

04-13

3108

利用pandas 自动的函数补全数据中的缺失值

[Python][pandas]缺失数据补全

pen960223的博客

05-09

1575

本文在文章pandas填充（扩增）数据_CTTACM的专栏-CSDN博客基础上修改而成。背景导师让我寻找相关光伏发电数据，需要24小时的数据，每3秒采样一次。楼主只找到一张图片，通过读取图片，得到了部分数据，根本不能使用。于是使用了上文方法，对数据进行补缺，代码如下：代码 import os import numpy as np import pandas as pd class PV_Interpolation(object): @staticmethod def g

python缺失值填充的几种方法

热门推荐

vivian_ll的博客

06-14

6万+

常见的数据缺失填充方式分为很多种，比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面，python稍差。 python目前已有的两种常见的包，第一个是impyute，第二个是fancyimpute。比如fancyimpute中集成了很多方式，包括均值、众数、频数填充，KNN填充、MCMC填充等。一、直接填充 data = pd.read_csv(path,enco...

十分钟搞定pandas

无限大地NLP_空木的专栏

03-31

1981

本文是对pandas官方网站上《10Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过Data Structure Intro Setion 来查看有关该节内容的详细信息。 1、可以通过传递一个list对

用pandas处理缺失值补全及DictVectorizer特征转换

空字符

01-19

4356

下面介绍的是用pands读取泰坦尼克遇难船员的数据，然后挑选特征，补全缺失值，特征转换。1.pands读取数据titanic=pd.read_csv('./titanic.txt')其数据形式如下： row_num pclass survived name age embarked home.dest room ticket boat sex 3 1

pandas 对数据帧DataFrame中数据的增删、补全及转换操作

weixin_30672295的博客

04-04

799

1、创建数据帧 import pandas as pd df = pd.DataFrame([[1, 'A', '3%' ], [2, 'B'], [3, 'C', '5%']], index=['row_0', 'row_1', 'row_2'], columns=['col_0', 'col_1', 'col_2']) 2、增加行、列　　数据帧DataFrame的每一...

Python数据处理-使用Pandas补齐缺失日期（pd.date_range）

不想做数分的码农不是好运营

03-08

1万+

在处理时间序列的数据中，有时候会遇到有些日期的数据缺失的情况，这时候可以用pandas的 `date_range` 函数快速补齐缺失日期，再根据实际情况补齐缺失值。

pandas补充缺失值

08-25

在使用 Pandas 来处理缺失值时，可以借助以下方法进行补充： 1. 使用fillna()方法：该方法可以用指定的值来填充缺失值。例如，可以使用平均值、中位数或者众数来填充数值...根据具体情况选择适合的方法来补充缺失值。