24. 数据清洗(二)
24.1 数据分布
- 右偏:平均数>中位数>众数(价格,X轴的大小)
- 左偏:众数>中位数>平均数
- 正态分布:三者相等
24.2 缺失值处理
连续变量 | 分类变量 | |
---|---|---|
缺失值少于20% | 均值或者中位数 | 不需要填补,单算一类或者用众数补充 |
缺失值在20%~80% | 均值或者中位数,(指示哑变量) | 不需要填补,单算一类或者用众数补充 |
缺失值在80%以上 | 每个有缺失值的变量生成一个指示哑变量,参与建模,不再使用原始数据 | 每一个有缺失值的变量生成一个指示哑变量,参与建模,不再使用原始数据 |
24.3 噪声处理
噪声值是指该数据中有一个或者多个数据与其他数据存在较大差异的值
噪声值,异常值,离群值
- 单个变量:盖帽法,分箱法
- 多个变量:聚类
24.3.1 盖帽法
默认情况:将小于1%分位数和大于99%分位数的值直接替换成1%或者99%(将小于1%的数,替换成1%)
24.3.2 分箱法
等宽分箱(分成数量一致的几个类)