【数据处理_缺失值处理】

数据分析修炼手册

已于 2022-03-21 16:58:10 修改

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签： python

于 2022-03-21 16:41:55 首次发布

本文链接：https://blog.csdn.net/weixin_40012554/article/details/123639387

版权

24 篇文章 5 订阅

订阅专栏

我们的数据样本中经常会出现缺失值的情况，那么在数据清洗的过程中，怎么处理缺失值？对于缺失值有三类处理方法：

对于缺失情况很严重的变量（缺失比例0.8-0.9以上），一般采用直接删除的方法

数值型变量：
如果数据分布近似正态分布，可以使用均值
如果数据分布是偏态分布时，则使用中位数更合适
字符型变量：
众数填充

对于数据中的空值有特殊含义的，可以单独归为一类数据

将缺失变量作为目标变量进行预测，得到最为可能的补全值

对于xgboost、ligtgbm可以不处理缺失值，因其本身有针对缺失值的处理，具体处理方法如下：

训练阶段
如果在训练过程中，特征 a 出现了缺失值：
1）首先对于 a 非缺失的数据，计算出 Lsplit 并比较大小，选出最大的 Lsplit ，确定其为分裂节点（即选取特征的某个阈值）；
2）然后对于 a 缺失的数据，将缺失值分别划分到左子树和右子树，分别计算出左子树和右子树的 Lsplit ，选出分裂后增益更大的 Lsplit ，将该方向作为缺失值的分裂方向
预测阶段
如果在预测过程中，特征 a 出现了缺失值，分为以下两种情况：
1）如果训练过程中，a 出现过缺失值，则按照训练过程中缺失值划分的方向（左/右），进行划分；
2）如果训练过程中，a 没有出现过缺失值，将缺失值的划分到默认方向（右子树）

关注

专栏目录