机器学习之缺失值的处理方法以及各种方法的优劣

1)用数值进行填充

用平均值、中值、分位数、众数、随机值等替代。简便快速但是效果一般,因为等于人为增加了噪声。

 

2)用算法拟合进行填充(常用的是随机森林算法)

 

相对一较为准确。但是有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。

 

3)对于缺失值很大的列直接删除,或者是映射到高维

 

映射到高维举例方法如下:若性别一列缺失较大,则可映射为男0,女1,不知2

这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差

 

 

转载于:https://www.cnblogs.com/dyl222/p/11020026.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
处理天文光谱数据时,常见的缺失值处理方法包括以下几种: 1. 删除缺失值:简单地将含有缺失值的数据行或列删除。这种方法简单直接,适用于缺失值较少的情况。然而,会导致数据的丢失,可能会影响分析结果的准确性。 2. 插值法:通过使用已有数据的信息来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。这些方法假设数据在缺失值附近是平滑的,通过插值来填补缺失值插值法简单易用,但对数据的平滑性要求较高,可能会引入一定的误差。 3. 均值/中位数填补:用整个数据集或相关子集的均值或中位数来填补缺失值。这种方法简单快速,不会引入太多额外误差,适用于缺失值较少的情况。然而,它忽略了其他特征之间的关系,可能会导致数据的偏移。 4. 随机森林/回归模型:通过使用其他特征来预测缺失值。可以使用随机森林、线性回归等机器学习模型来建立预测模型。这种方法能够考虑到特征之间的相关性,适用于复杂的数据集。然而,对于大规模数据集或缺失值较多的情况,建立模型的计算开销较大。 优劣比较: - 删除缺失值方法简单快速,但会导致数据丢失,不适合数据缺失较多的情况。 - 插值法适用于平滑数据,但对数据的平滑性要求较高,可能引入一定的误差。 - 均值/中位数填补方法简单有效,但忽略了其他特征之间的关系,可能引入偏移。 - 使用机器学习模型方法能够考虑特征之间的关系,适用于复杂的数据集,但对于大规模数据集或缺失值较多的情况,计算开销较大。 综合考虑数据特征、数据缺失情况和计算开销等因素,选择适合的缺失值处理方法是非常重要的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值