"pythonic生物人"的第55篇分享。
本篇详解pandas中缺失值(Missing data handling)处理常用操作。
缺失值处理常用于数据分析数据清洗阶段;
Pandas中将如下类型定义为缺失值:
NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’,
‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘’, ‘N/A’, ‘NA’,
‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’,None
本文将学到什么
1、pandas中缺失值注意事项
pandas和numpy中任意两个缺失值不相等(np.nan \!= np.nan)
pandas读取文件时那些值被视为缺失值
2、pandas缺失值操作
pandas.DataFrame中判断那些值是缺失值:isna方法
pandas.DataFrame中删除包含缺失值的行:dropna(axis=0)
pandas.DataFrame中删除包含缺失值的列:dropna(axis=1)
pandas.DataFrame中删除包含缺失值的列和行:dropna(how='any')
pandas.DataFrame中删除全是缺失值的行:dropna(axis=0,how='all')
pandas.DataFrame中删除全是缺失值的列:dropna(axis=1,how='all')
pandas.DataFrame中使用某个值填充缺失值:fillna(某个值)
pandas.DataFrame中使用前一列的值填充缺失值:fillna(axis=1,method='ffill')
pandas.DataFrame中使用前一行的值填充缺失值:fillna(axis=0,method='ffill')