数据预处理的常用流程:
1)去除唯一属性
2)处理缺失值
3)属性编码
4)数据标准化、正则化
5)特征选择
6)主成分分析
1、去除唯一属性
如id属性,是唯一属性,直接去除就好
2、处理缺失值
(1)直接使用含有缺失值的特征
如决策树算法就可以直接使用含有缺失值的特征
(2)删除含有缺失值的特征
(3)缺失值补全(最广泛运用)
用最可能的值来插补缺失值
1)均值插补
若样本属性的距离是可度量的,则该属性的缺失值就以该属性有效值的平均值来插补缺失的值。如果样本的属性的距离是不可度量的,则该属性的缺失值就以该属性有效值的众数来插补缺失的值。
2)用同类均值插补
首先将样本进行分类,然后以该类样本中的均值来插补缺失值。
3)建模预测
将缺失的属性作为预测目标来预测。这种方法效果较好,但是该方法有个根本的缺陷:如果其他属性和缺失属性无关,则预测的结果毫无意义。但是如果预测结果相当准确,则说明这个缺失属性是没必要考虑纳入数据集中的。一般的情况介于两者之间。
4)高维映射
将属性高映射到高维空间。这种做法是最精确的做法,它完全保留了所有的信息,也未增加任何额外的信息。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值。但它的缺点也很明显,就是计算量大大提升。而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。
5)多重插补
多重插补认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
6)极大似然估计
7)压缩感知及矩阵补全
压缩感知通过利用信号本身所具有的稀疏性,从部分观测样本中回复原信号。压缩感知分为感知测量和重构恢复两个阶段。
感知测量:此阶段对原始信号进行处理以获得稀疏样本表示。常用的手段是傅里叶变换、小波变换、字典学习、稀疏编码等
重构恢复:此阶段基于稀疏性从少量观测中恢复原信号。这是压缩感知的核心
矩阵补全
3、特征编码
(1)特征二元化:将数值型的属性转换成布尔型的属性
(2)独热编码:构建一个映射,将这些非数值属性映射到整数。其采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器位表示,并且在任意时刻只有其中的一位有效。
4、数据标准化、正则化
(1)数据标准化:将样本的属性缩放到某个指定范围
进行数据标准化的原因:一是因为某些算法要求样本数据具有零均值和单位方差。二是样本不同属性具有不同量级时,消除数量级的影响。
min-max标准化:标准化之后,样本x的所有属性值都在[0,1]之间
z-score标准化:标准化之后,样本集的所有属性的均值都是0,标准差均为1
(2)数据正则化:将样本的某个范数(如L1范数)缩放到单位1。正则化的过程是针对单个样本的,对于每个样本将样本缩放到单位范数。通常如果使用二次型(如点积)或者其他核方法计算两个样本之间的相似性,该方法会很有用。
5、特征选择
(1)过滤式选择:先对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关。常用方法有Relief(二分类)、Relief-F(多分类)
(2)包裹式选择:直接把最终将要使用的学习器的性能作为特征子集的评价准则。常用方法LVW
(3)嵌入式选择和L1正则化
嵌入式特征选择是在学习器训练过程中自动进行了特征选择
6、稀疏表示和字典学习
数据预处理实战总结:
1、绘制箱型图判断数据是否有异常值
运用Python的Pandas库中,读入数据,然后使用describe()函数查看数据的基本情况
i