datacombo重复值的处理_Pandas入门【S1E3】缺失值和重复值处理

最新推荐文章于 2022-05-07 23:37:54 发布

weixin_39928736

最新推荐文章于 2022-05-07 23:37:54 发布

阅读量96

点赞数

文章标签： datacombo重复值的处理 pandas fillna pandas删除某列有空值的行值对于int32太大或太小

导语：

前两期分别就pandas安装和导入数据、pandas数据探索做了梳理。

回顾如下：

Pandas安装和数据导入mp.weixin.qq.com

Pandas数据探索mp.weixin.qq.com

今天进入第三期，重点是缺失值和重复值的查找与处理。

（写着写着就成了单刀直入的号主···）

查找缺失值

日常数据处理经常会遇到数据缺失的问题。

缺失值查找：

isna() - isna()针对每一行查找。

isna().any() - 对每一列查找别返回是否有缺失值标记

spotify数据集无缺失值，我们用pandas生成一个有缺失值的dataframe：

第二行C列有缺失值，且缺失值为NaN。

检查缺失值，False代表无缺失，True有缺失：

对于类似于test的小数据集，可以直接查看缺失值所在行：

缺失值处理

缺失值处理一般有两个办法：

填充或剔除——需要结合具体的数据集考虑。

如果缺失值相对数据集而言非常小量且不影响数据集的整体分布，可以考虑直接剔除。

填充利用fillna()，可以指定固定值、均值、中位数等填充。

指定值填充：

中位数填充：

缺失值直接剔除：dropna

空值

空值和na稍有差异。

空值是指"",na指nan

空值检查用isnull()，填充继续使用fillna()即可。

重复值

重复值查找用duplicated()。

删除重复值所在行用drop_duplicates()。

虽然长相类似，但一定不要用混了～

结语

Spotify的这个数据集比较简单，而且数据集没有什么太大问题。

实际应用pandas的数据处理的过程中，其实多多少少会遇到缺失、重复的问题，后面我会再拿几个数据案例来帮大家练习提升pandas的熟练度。

其实数据处理是数据分析的重中之重，毫不夸张的说，数据分析有50%以上的时间都是花在数据提取、数据处理上了。

这一块熟练了之后，数据分析水平也会再上一个新的台阶。

加油，练起来吧～

weixin_39928736

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
datacombo重复值的处理_Pandas入门【S1E3】缺失值和重复值处理

导语：前两期分别就pandas安装和导入数据、pandas数据探索做了梳理。回顾如下：Pandas安装和数据导入mp.weixin.qq.comPandas数据探索mp.weixin.qq.com今天进入第三期，重点是缺失值和重复值的查找与处理。（写着写着就成了单刀直入的号主···）查找缺失值日常数据处理经常会遇到数据缺失的问题。缺失值查找：isna() - isna()针对每一行查找。isn...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。