在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。 这工作会占到分析师时间的80%或更多。
pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规整为想要的格式。
处理缺失数据
检测缺失数据
检测
在统计应用中,NA数据可能是不存在的数据或者虽然存在,但是没有观察到(例如,数据采集中发生了问题)。当进行数据清洗以进行分析时,好直接对缺失数据进行分析,以判断数据采集的问题或缺失数据可能导致的偏差。
Python内置的None值在对象数组中也可以作为NA:
None
滤除缺失数据
滤除缺失
DataFrame对象,dropna默认丢弃任何含有缺失值的行
丢弃含有缺失值的行
传入how=‘all’将只丢弃全为NA的行
丢弃全为NA的行
将特殊值置为NA之后进行相关操作
根据非NA的个数决定是否删除
填充缺失数据
fillna方法是主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值。