数字处理和特征工程--处理缺失数据

最新推荐文章于 2024-07-26 17:36:26 发布

url_youheart

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量55

点赞数

文章标签： python 数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/url_youheart/article/details/121190934

版权

缺失数据的处理

1.pandas中对none的处理

自动把none 当作缺失数据

import pandas as pd
df= pd.Series([16,16,22,23,None])
df

0    16.0
1    16.0
2    22.0
3    23.0
4     NaN
dtype: float64

在nupmy中None 可以与数字相加

import numpy as np
np.nan+2

nan

查看数据中哪部分缺失

import numpy as np
import pandas as pd
s=pd.Series([16,2,1,5,None])
s

0    16.0
1     2.0
2     1.0
3     5.0
4     NaN
dtype: float64

使用isna检测

s.isna()

0    False
1    False
2    False
3    False
4     True
dtype: bool

datafram中也一样

b=pd.DataFrame({'name':['liu','chen','dong'],'sex':['m','f',np.nan]})
b

	name	sex
0	liu	m
1	chen	f
2	dong	NaN

b.isna()

	name	sex
0	False	False
1	False	False
2	False	True

如果数据集很大，这种方式就会很麻烦!!!

用any()检测列下面的缺失情况

b.isna().any()

name    False
sex      True
dtype: bool

计算缺失率

(b.shape[0]-b.count())/b.shape[0]

name    0.000000
sex     0.333333
dtype: float64

(b.shape[1]-b.T.count())/b.shape[1]#shape[0]表示行数，shape[1]表示列数

0    0.0
1    0.0
2    0.5
dtype: float64

删除缺失值的那一行

b.dropna()

	name	sex
0	liu	m
1	chen	f

选择性删除其内容全是缺失值的行或列

b.dropna(axis=0,how='all')# axis=0是行，how 是全部是缺失值的时候才删除该行或列

    name	sex
0	liu	    m
1	chen	f
2	dong	NaN

设置缺失值阈值

b.dropna(thresh=2)# 非缺失值的数量小于2则删除该行

	name	sex
0	liu	m
1	chen	f

缺失值填充

b.fillna('m')

	name	sex
0	liu	m
1	chen	f
2	dong	m

填充上一个数字

b.fillna(method='ffill')  # bfill填充缺失值后面的那个值

	name	sex
0	liu	    m
1	chen	f
2	dong	f

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数字处理和特征工程--处理缺失数据

缺失数据的处理1.pandas中对none的处理自动把none 当作缺失数据import pandas as pddf= pd.Series([16,16,22,23,None])df0 16.01 16.02 22.03 23.04 NaNdtype: float64在nupmy中None 可以与数字相加import numpy as npnp.nan+2nan查看数据中哪部分缺失import numpy as npimpor
复制链接

扫一扫

url_youheart CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

61万+: 周排名

29万+: 总排名

8582: 访问

: 等级

213: 积分

2: 粉丝

12: 获赞

4: 评论

29: 收藏

私信

关注

热门文章

分类专栏

pytorch 3篇

最新评论

深度学习中常用的linux指令（持续更新）
CSDN-Ada助手: 恭喜你写了这么有用的一篇博客！深度学习中常用的linux指令真的是很实用的知识，而且你还表示会持续更新，真的很期待！不知道下一步你是否考虑写一些深度学习中常用的Python库的使用技巧呢？我觉得这对很多人来说也会非常有帮助。希望你可以继续保持创作的热情，期待你的下一篇文章！
pytorch下对标签target进行one-hot编码
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来很有趣，我期待着阅读您关于在pytorch下对标签target进行one-hot编码的内容。您的博客一直都很有质量，我很欣赏您对于深度学习和pytorch的研究。在下一篇博客中，或许您可以介绍一下如何在pytorch中使用不同的损失函数来优化模型效果，或者探讨一下在标签不平衡数据集上进行训练的方法。希望我的建议能对您的创作有所帮助。再次恭喜您，期待您的下一篇博客！
Dataloader使用pytorch加载自定义图像数据，分类分割检测（1）.....持续更新中(通俗易懂)
CSDN-Ada助手: 恭喜您撰写第15篇博客！标题看起来非常吸引人，而且内容似乎非常实用。感谢您以通俗易懂的方式分享关于Dataloader在pytorch中加载自定义图像数据的使用方法，以及与分类、分割和检测相关的内容。持续更新非常值得称赞，您的努力将为读者提供持续学习的机会。鉴于您的专业知识和写作能力，我希望您能够继续分享更多关于图像处理和深度学习的实用技巧和经验。也许您可以考虑深入探讨如何优化Dataloader的性能，或者介绍一些高级的分类、分割和检测模型。当然，这只是一个建议，您可以根据自己的兴趣和能力来选择下一篇博客的主题。期待您未来的创作，再次恭喜您！
使用pytorch写各种模型的不同方式，分类网络，分割网络，检测网络（持续更新中...）
CSDN-Ada助手: 非常棒的博客！恭喜你完成了第16篇文章。你的标题很吸引人，看起来你已经介绍了使用pytorch编写各种不同类型的模型，包括分类网络、分割网络和检测网络。这是一个非常有价值的主题，而且你还表示会继续更新，这真是太好了！我希望你能继续保持这种积极的创作状态，并在未来的文章中探索更多有趣的深度学习主题。或许你可以考虑添加一些实际案例，以展示这些不同类型的模型在真实场景中的应用。期待你的下一篇文章，加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。