pandas-02-数据清洗&预处理
文中用S代指Series,用Df代指DataFrame
数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,分箱,随机采样,向量化编码等方法。每种方法都给出了代码和实例,并用表格进行总结。
A.缺失值处理
1. Pandas缺失值判断
- np.nan 会自动识别为NaN (not a number),认定为空值
- python中内置的None,认定为空值
- csv文件中两个逗号之间什么都没有,读取时默认用NaN代替,认定为空值
- 注意pandas会将缺失值类型识别为float64,这将导致数据类型不统一的问题,C部分会说明解决方法