本记录为本人参加datawhale数据分析(泰坦尼克号任务项目)学习笔记,不足之处多多指教。
数据清洗简述
通常我们拿到的数据是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等等,需要经过一定的处理才能继续做后面的分析或建模。所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。
缺失值观察
(1) 请查看每个特征缺失值个数
# 方法1 统计基本信息
df.info()
# 方法2 isnull函数
df.isnull().sum()
(2) 请查看Age, Cabin, Embarked列的数据
df[["Age","Cabin","Embarked"]].head()
对缺失值进行处理
1、处理缺失值一般有几种思路
(1)不处理 (2) 特殊值填充(3)平均值填充(4)热卡填充(相似值填充)(5)最近邻法(6) 使用所有可能的值填充(7)模型预测 (8) 多重插补
函数作用:删除含有空值的行或列
DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
函数作用:填充缺失值
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwa