1.数据分析

项目竞赛第一章

EDA-数据探索性分析

1.观察数据

  • 通过 .head()和shape简略观察数据
  • 通过 .describe()来观察数据的相关统计量,包括count,mean,std.min,中位数25%,50%,75%,max。这里重点注意的是,如果出现9999999-1等值是nan的另一种表现形式
  • 通过 .info()可以观察到是否有缺失值的情况,并查看特征的数据类型(当类型为object时,注意出现缺失情况)

2.判断数据缺失和异常

  • train_data.isnull().sum(),可以查看每列的缺失值统计信息(这里只能查看数值类型的缺失值情况,其他例如object类型的缺失使用其他方法)。也同样可以使用可视化的方法看数据的缺失情况,通过引入missingno库可以进行nan可视化(import missingno as msno)
  • 处理异常值:1.数据类型为object类型,2.类别特征出现严重偏斜时,可以考虑删除此特征3.可以作箱型图可以看出是否出现异常值,一般最边线以外的点为异常点,具体参考https://baike.baidu.com/item/箱形图/10671164?fr=aladdin

3.了解预测值的分布
主要使用seaborn来观察数据间的相关性

4.pandas_profiling生成html文件直接观察,简单,但是真的慢,嘎嘎嘎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值