EDA-数据探索性分析的目标

EDA-数据探索性分析的目标

  • EDA价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
  • 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系
  • 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠

EDA-探索步骤

整体总览

  • 通过df.shape查看数据集行列数目
  • 通过df.info()查看数据类型
  • 通过df.describe()对数值型变量进行值统计

判断数据缺失和异常

缺失值判断

*通常使用 df.isnull().sum()和df.isnull().sum()判断每一列的缺失值数量以及是否存在缺失值isnull().sum()

  • 通常我们使用柱状图对缺失数量进行可视化,可视化的方法也十分简单,利用pandas自带的plot进行柱状图绘制.
    在这里插入图片描述通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于 nan存在的个数是否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值