数据清洗
数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理,使得清洁后的数据格式符合标准、不存在异常数据等。
1.缺失值的处理
(1)忽略有缺失值的数据。若某条数据存在缺失项,就删除该条记录;若某个属性列缺失值过多,则在整个数据集中删除该属性,但有可能因此损失大量数据。
(2)进行缺失值填补。可以填补某一固定值、平均值或者根据记录填充最有可能值。可能会利用决策树、回归分析等。
2.噪声数据的处理
(1)分箱技术
分箱技术通过考察相邻数据来确定最终值,可以实现异常或噪声数据的平滑处理。基本思想是按照属性值划分子区间,若属性值属于某个子区间,就将其放入该子区间对应的“箱子”内。箱的深度表示箱中所含数据记录条数,宽度则表示对应属性值的取值范围。
(2)聚类技术
聚类技术是将数据集合分组为由类似的数据组成的多个簇。聚类技术主要用于找出并清除那些落在簇之外的值(孤立点)。这些孤立点被视为噪声。
(3)回归技术
通过发现两个相关变量之间的关系,寻找适合两个变量之间的映射关系来平滑处理,即通过建立数学模型来预测下一个数值。
3.不一致数据的处理
需根据实际情况给出处理方案,可以使用相关材料进行人工修复、对不同源数据进行数据转化等。
4.异常数据的处理
异常数据大部分情况是很难修正的,只能将其直接过滤掉。有些数据异常可以被还原,如原字符串中掺杂了一些其他无用的字符。
特征工程
特征工程包括特征选择、特征构建、特征提取。目前是能够用尽量少的特征描述原始数据,同时保持原始数据与分析目的相关的特性。
特征选择
(1)特征是否发散
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么这个特征对样本的区分并没有什么用。
(2)特征是否与分析结果相关
相关特征是指其取值能够改变分析结果。
(3)特征信息是否冗余
特征中可能存在一些冗余特征,即两个特征本质上相同,也可以表示为两个特征的相关性比较高。
进行特征选择有以下几种方法:
(1)Filter (过滤法)
按照发散性或者相关对各特征进行评分,设定阈值或待选择阈值的个数,选择特征。
(2)Wrapper(包装法)
根据目标函数(通常是预测效果评分),每次选择若干特征或者排除若干特征。
(3)Embedded(集成法)
先使用某些机器学习的算法和模型进行训练,得到各特征的权重系数,根据系数从大到小选择特征,类似过滤法,不同的是通过训练来确定特征的优劣。