数据清洗、数据挖掘常见十大问题

最新推荐文章于 2024-09-27 20:51:30 发布

SeafyLiang

最新推荐文章于 2024-09-27 20:51:30 发布

阅读量3.9k

点赞数 4

分类专栏： Python自学数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SeafyLiang/article/details/115422753

版权

数据清洗、数据挖掘常见十大问题

一、数据预处理、数据清洗和特征工程

数据预处理主要是对数据集进行探索性分析，而特征工程则是进行分析后的相应处理。以上两个名词不常说，最常听的应该还是数据清洗，差不多也就相当于上面两个步骤。

例如：在预处理阶段发现数据存在缺失值、异常值；数据特征之间存在共线性；数据特征可以互相组合形成更好的特征等等。就可以在特征工程阶段对上述发现的问题进行相应的处理。

二、数据预处理和特征工程阶段最常见的10个问题

1. 什么是数据 EDA？

EDA：Exploratory Data Analysis，译为：探索性数据分析。

数据 EDA 是在拿到数据之后对数据进行初步探索认识的一个过程，在数据 EDA 阶段，并不对数据做任何处理，只进行数据探索，而在特征工程阶段会对数据进行相关操作。具体的，数据 EDA 有如下作用：

了解数据的分布、特征的类别，以及发现离群点数据。这一步可通过简单的直方图、散点图、小提琴图、箱型图等进行探索；
了解数据特征与特征之间的关联情况，以及特征与目标变量之间的关系。这一步可通过组合直方图、热力图等进行探索；
对于划分后的数据集，可以探索训练集和测试集的样本整体分布是否一致，数据特征的缺失情况、分布是否一致等。

2. 缺失值的处理方式有哪些？

对于缺失值的处理有很多方法，在缺失率低的情况下可以对缺失数据进行填充，比如使用均值、众数、随机森林算法等进行缺失值填充；

另外，如果缺失值不能简单的填充，可以将缺失数据当做特征中的某个类别处理（具体的也可以在数据 EDA 中探索数据缺失的情况下和目标变量之间的关系）

如果某个特征的缺失程度过高，也可以直接剔除该特征。需要注意的是，在 xgb 和 lgb 模型中可以自动处理缺失值，所以不需要提前进行处理。

3. 如何检测

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。