EDA-数据探索性分析
EDA-数据探索性分析的目标
- EDA价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
- 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系
- 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠
EDA-探索步骤
整体总览
- 通过df.shape查看数据集行列数目
- 通过df.info()查看数据类型
- 通过df.describe()对数值型变量进行值统计
判断数据缺失和异常
缺失值判断
*通常使用 df.isnull().sum()和df.isnull().sum()判断每一列的缺失值数量以及是否存在缺失值
- 通常我们使用柱状图对缺失数量进行可视化,可视化的方法也十分简单,利用pandas自带的plot进行柱状图绘制.
通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于 nan存在的个数是否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果