数据清洗、数据挖掘常见十大问题

一、数据预处理、数据清洗和特征工程

数据预处理主要是对数据集进行探索性分析,而特征工程则是进行分析后的相应处理。以上两个名词不常说,最常听的应该还是数据清洗,差不多也就相当于上面两个步骤。

​ 例如:在预处理阶段发现数据存在缺失值、异常值;数据特征之间存在共线性;数据特征可以互相组合形成更好的特征等等。就可以在特征工程 阶段对上述发现的问题进行相应的处理。

二、数据预处理和特征工程阶段最常见的10个问题

1. 什么是数据 EDA?

EDA:Exploratory Data Analysis,译为:探索性数据分析。

​ 数据 EDA 是在拿到数据之后对数据进行初步探索认识的一个过程,在数据 EDA 阶段,并不对数据做任何处理,只进行数据探索,而在特征工程阶段会对数据进行相关操作。具体的,数据 EDA 有如下作用:

  1. 了解数据的分布、特征的类别,以及发现离群点数据。这一步可通过简单的直方图、散点图、小提琴图、箱型图等进行探索;
  2. 了解数据特征与特征之间的关联情况,以及特征与目标变量之间的关系。这一步可通过组合直方图、热力图等进行探索;
  3. 对于划分后的数据集,可以探索训练集和测试集的样本整体分布是否一致,数据特征的缺失情况、分布是否一致等。

2. 缺失值的处理方式有哪些?

对于缺失值的处理有很多方法,在缺失率低的情况下可以对缺失数据进行填充,比如使用均值、众数、随机森林算法等进行缺失值填充;

另外,如果缺失值不能简单的填充,可以将缺失数据当做特征中的某个类别处理(具体的也可以在数据 EDA 中探索数据缺失的情况下和目标变量之间的关系)

如果某个特征的缺失程度过高,也可以直接剔除该特征。需要注意的是,在 xgb 和 lgb 模型中可以自动处理缺失值,所以不需要提前进行处理。

3. 如何检测

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值