2. 数据挖掘入门之数据清洗


数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理,异常值处理,数据分桶,特征归一化/标准化等流程

1. 缺失值处理

  • 不处理: 针对xgboost等树模型,有些模型有处理缺失的机制,所以可以不处理。
  • 删除该列: 如果缺失的太多,可以考虑删除该列
  • 插值补全: 均值、中位数、众数、建模预测、多重插补,通过感知补全或矩阵补全等高维映射方法等
  • 分箱处理:缺失值一个箱

2. 异常值处理

  • BOX - COX转换:用于连续的变量不满足正态分布的时候,在做线性回归的过程中,一般需要做线性模型假设
  • 箱线图分析:依据实际数据绘制,真实、直观的表现出了数据分布的原本面貌,其判断异常值的标准以四分位数和四分位距为基础
  • 长尾截断

3. 数据分桶

  • 等频分桶: 区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。
  • 等距分桶:从最小值到最大值之间,均分为N等份。
  • Best - KS分桶:类似利用基尼指数进行二分类。
  • 卡方分桶:依赖于卡方检验:具有最小卡方值得相邻区间合并在一起,直到满足确定的停止标准。

4. 数据转换

  • 数据归一化(MinMaxScaler)
  • 标准化(StandardScaler)
  • 对数变换(loglp)
  • 转换数据类型(astype)
  • 独热编码(OneHotEncoder)
  • 标签编码(labelEncoder)
  • 修复性偏斜特征(boxcoxlp)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值