数据清洗、数据挖掘常见十大问题
一、数据预处理、数据清洗和特征工程
数据预处理主要是对数据集进行探索性分析,而特征工程则是进行分析后的相应处理。以上两个名词不常说,最常听的应该还是数据清洗,差不多也就相当于上面两个步骤。
例如:在预处理阶段发现数据存在缺失值、异常值;数据特征之间存在共线性;数据特征可以互相组合形成更好的特征等等。就可以在特征工程 阶段对上述发现的问题进行相应的处理。
二、数据预处理和特征工程阶段最常见的10个问题
1. 什么是数据 EDA?
EDA:Exploratory Data Analysis,译为:探索性数据分析。
数据 EDA 是在拿到数据之后对数据进行初步探索认识的一个过程,在数据 EDA 阶段,并不对数据做任何处理,只进行数据探索,而在特征工程阶段会对数据进行相关操作。具体的,数据 EDA 有如下作用:
- 了解数据的分布、特征的类别,以及发现离群点数据。这一步可通过简单的直方图、散点图、小提琴图、箱型图等进行探索;
- 了解数据特征与特征之间的关联情况,以及特征与目标变量之间的关系。这一步可通过组合直方图、热力图等进行探索;
- 对于划分后的数据集,可以探索训练集和测试集的样本整体分布是否一致,数据特征的缺失情况、分布是否一致等。
2. 缺失值的处理方式有哪些?
对于缺失值的处理有很多方法,在缺失率低的情况下可以对缺失数据进行填充,比如使用均值、众数、随机森林算法等进行缺失值填充;
另外,如果缺失值不能简单的填充,可以将缺失数据当做特征中的某个类别处理(具体的也可以在数据 EDA 中探索数据缺失的情况下和目标变量之间的关系)
如果某个特征的缺失程度过高,也可以直接剔除该特征。需要注意的是,在 xgb 和 lgb 模型中可以自动处理缺失值,所以不需要提前进行处理。