从经典到深度学习的数据补全

最新推荐文章于 2024-07-04 16:20:32 发布

Sigyc

最新推荐文章于 2024-07-04 16:20:32 发布

阅读量6.8k

点赞数 9

分类专栏：数据竞赛文章标签：机器学习

本文链接：https://blog.csdn.net/github_31101389/article/details/106752577

版权

数据补全方法

数据分析
一般方法
随机森林
GAIN
其他GAN补全数据相关文章

实际中运用机器学习方法完成各种任务时，常常遇到数据缺失的问题，如果某特征缺失的样本占总数极大，我们可能就直接舍弃了；因为如果作为特征加入的话，可能反倒带入噪音，影响最后的结果，但是一般情况下我们会去寻找各种数据补全的方法来完善数据，提高模型效果。

数据分析

拿到数据的第一手肯定要看看具体情况，发现缺失再决定要去填充，那么我们拿到一个数据要怎么去看它的状况呢。首先可以用pandas自带的一些方法去看
比如用df.describe()就可以看到一些平均值、方差基础数学属性。
在这里插入图片描述
然后我们是要关注数据缺失与否的状况，data.isnull()可以判断为不为空，所以加上一个求每列空值综合再排序就可以得到特征缺失情况。（默认的排序是从小到大）

然后我们可以依次把这些这些缺失特征当作标签去进行填充啦。(记得把没有缺失的特征去掉)
但是我们不局限于这种简陋的分析，给大家安利一个特别好用的工具包 pandas-profiling.只需要几行简单的调用就可以生成一个分析报告展示。

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")
profile.to_file("your_report.html")

内容十分丰富，不仅可以看到一个属性值的最大最小，平均等多种信息。
在这里插入图片描述
还可以看到特征之间各种相关性评估

最低0.47元/天解锁文章

Sigyc

关注

9
点赞
踩
38

收藏

觉得还不错? 一键收藏
2
评论
从经典到深度学习的数据补全

数据补全方法MissForestGAINMissForestGAIN
复制链接

扫一扫

专栏目录

从经典到深度学习的数据补全

数据补全方法

数据分析

“相关推荐”对你有帮助么？