从经典到深度学习的数据补全


实际中运用机器学习方法完成各种任务时,常常遇到数据缺失的问题 ,如果某特征缺失的样本占总数极大,我们可能就直接舍弃了;因为如果作为特征加入的话,可能反倒带入噪音,影响最后的结果,但是一般情况下我们会去寻找各种数据补全的方法来完善数据,提高模型效果。

数据分析

拿到数据的第一手肯定要看看具体情况,发现缺失再决定要去填充,那么我们拿到一个数据要怎么去看它的状况呢。首先可以用pandas自带的一些方法去看
比如用df.describe()就可以看到一些平均值、方差基础数学属性。
在这里插入图片描述
然后我们是要关注数据缺失与否的状况,data.isnull()可以判断为不为空,所以加上一个求每列空值综合再排序就可以得到特征缺失情况。(默认的排序是从小到大
在这里插入图片描述
然后我们可以依次把这些这些缺失特征当作标签去进行填充啦。(记得把没有缺失的特征去掉)
但是我们不局限于这种简陋的分析,给大家安利一个特别好用的工具包 pandas-profiling.只需要几行简单的调用就可以生成一个分析报告展示。

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")
profile.to_file("your_report.html")

内容十分丰富,不仅可以看到一个属性值的最大最小,平均等多种信息。
在这里插入图片描述
还可以看到特征之间各种相关性评估

  • 9
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值