Python数据分析步骤案例（二）

墨小白是总攻啊

已于 2022-01-19 22:25:58 修改

阅读量1k

点赞数

文章标签： python 数据分析开发语言

于 2022-01-19 22:24:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51576526/article/details/122590545

版权

做完数据提取和问题提出之后就要进行数据整理了，在本次数据整理的数据评估的工作主要做了数据的行列数，缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列，添加解决问题所需要的新的数据列，缺失数据的处理以及重复数据处理。

就此次实验做出总结，此次都是以名为df的数据集为例进行操作语句的示例：

1）查看数据集的行数和列数

df.shape

结果中，第一个数字代表数据集的行数，第二个是列数。

2）检查缺失值

df.info()

info是information的缩写，在notebook中运行代码结果：

RangeIndex的行数为703500，小于这个数表示数据存在缺失值。

3）处理数据缺失

此次实验采用的是删除缺失值：

df.dropna(inplace=True)

dropna为删除缺失的行，inplace=True表示直接在原数据上删除确实行。

4）检查数据重复

对于比较小的数据集，使用duplicated检查各行是否重复：

df.duplicated()

结果中False是首次的行，True不是首次出现的行，表示重复。

对于大的数据集，使用duplic

最低0.47元/天解锁文章

墨小白是总攻啊

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析步骤案例（二）

做完数据提取和问题提出之后就要进行数据整理了，在本次数据整理的数据评估的工作主要做了数据的行列数，缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列，添加解决问题所需要的新的数据列，缺失数据的处理以及重复数据处理。就此次实验做出总结，此次都是以名为df的数据集为例进行操作语句的示例：1）查看数据集的行数和列数df.shape结果中，第一个数字代表数据集的行数，第二个是列数。2）检查缺失值df.info()info是information的缩写，在notebook中运
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。