缺失值处理

最新推荐文章于 2024-04-11 16:16:44 发布

kakak_

最新推荐文章于 2024-04-11 16:16:44 发布

阅读量210

点赞数

分类专栏： Data mining

本文链接：https://blog.csdn.net/kakak_/article/details/106352825

版权

Data mining 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

直接使用含有缺失值的特征
删除含有缺失值的特征
缺失值补全

缺失值补全

均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、手动插补

均值插补
如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；
如果的距离是不可度量的，则使用该属性有效值的众数来插补缺失的值。
同类均值插补
首先将样本进行分类，然后以该类中样本的均值来插补缺失值。
建模预测
将缺失的属性作为预测目标来预测，将数据集按照是否含有特定属性的缺失值分为两类，利用现有的机器学习算法对待预测数据集的缺失值进行预测。(聚类，回归)
该方法的根本的缺陷是如果其他属性和缺失属性无关，则预测的结果毫无意义；但是若预测结果相当准确，则说明这个缺失属性是没必要纳入数据集中的。
高维映射
将属性映射到高维空间，采用独热码编码（one-hot）技术。将包含K个离散取值范围的属性值扩展为K+1个属性值，若该属性值缺失，则扩展后的第K+1个属性值置为1。
这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值；缺点是计算量大大提升，且只有在样本量非常大的时候效果才好。
多重插补
多重插补认为待插补的值是随机的，实践上通常是估计出待插补的值，再加上不同的噪声，形成多组可选插补值，根据某种选择依据，选取最合适的插补值。
极大似然估计
期望值最大化，适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。
手动插补
插补处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实。在许多情况下，根据对所在领域的理解，手动对缺失值进行插补的效果会更好。