做完数据提取和问题提出之后就要进行数据整理了,在本次数据整理的数据评估的工作主要做了数据的行列数,缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列,添加解决问题所需要的新的数据列,缺失数据的处理以及重复数据处理。
就此次实验做出总结,此次都是以名为df的数据集为例进行操作语句的示例:
1)查看数据集的行数和列数
df.shape
结果中,第一个数字代表数据集的行数,第二个是列数。
2)检查缺失值
df.info()
info是information的缩写,在notebook中运行代码结果:
RangeIndex的行数为703500,小于这个数表示数据存在缺失值。
3)处理数据缺失
此次实验采用的是删除缺失值:
df.dropna(inplace=True)
dropna为删除缺失的行,inplace=True表示直接在原数据上删除确实行。
4)检查数据重复
对于比较小的数据集,使用duplicated检查各行是否重复:
df.duplicated()
结果中False是首次的行,True不是首次出现的行,表示重复。
对于大的数据集,使用duplic