ML_Basic-特征预处理操作指南

? 机器学习基础系列专栏

声明:

整合网路上各种资源,如果发现出现引用并未标注的来源的

请联系本文作者!

? Index

  • 数据清洗

    • 缺失值处理

    • 异常值处理

  • 数据集成

    • 实体识别

    • 冗余属性识别

  • 数据变换

    • 简单函数变换

    • 规范化

    • 变量分箱

    • 变量开发

    • 独热编码

  • 数据规约

    • 特征规约

    • 数值规约

? 数据清洗

主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作  

640?wx_fmt=png

1. 缺失值处理  

这里需要区分缺失值和空值的区别:  

缺失值:缺失值指的是的数据原本是必须存在的,但实际上没有数据。根据数据及业务的理解,这个字段应当没有缺失值,但却有些观测没有数据,这个时候就要检查,看下是不是数据拼接的时候出现问题了。

空值:空值指的是实际存在可能为空的情况,所以空值不一定是数据问题,可能是观测的一种特征表现。

主要分为3类:删除记录、数据插补、不处理  

数据插补的办法:

1)均值/中位数/众数插补  

2)使用固定值:将缺失的值用一个常数表示  

3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补  

4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失  

5)插值法

2. 异常值处理

常用的处理办法包括:  

1)删除含有异常值的记录  

2)视为缺失值  

3)平均值修正  

4)不处理

? 数据集成

数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1)同名异义  

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。  

2)异名同义  

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同  

3)单位不统一  

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1)同一属性多次出现  

2)同一属性命名不一致导致重复

? 数据变换  

数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。  

1. 简单函数变换  

常用的变换包括平方、开方、取对数、差分运算等  

2. 规范化  

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化、z-score标准化  

3. 变量分箱  

常用的方法包括等宽法、等频法、聚类法  

4. 变量开发  

即利用已有的变量,组合构造出新的变量  

5. 独热编码  

独热编码采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器来表示,并且在任意时刻只有其中一位有效。  

优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量。  

? 数据规约  

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)——百度百科  

对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。  

1. 特征规约  

通过特征(变量)合并来创建新特征维度,或者直接删除不相关的属性,常用的办法包括:  

1)合并特征  

2)逐步向前选择  

3)逐步向后选择  

4)决策树归纳  

5)主成分分析(PCA)  

2. 数值规约  

指的是通过选择替代的、较小的数据来减少数据量。

1)直方图分箱近似分布  

2)聚类  

3)抽样  

4)参数回归  

Reference

  • 《Python数据分析与挖掘实战》 —C04 数据预处理  

  • 数据挖掘中常用的数据清洗方法有哪些?---宋天龙的回答 --知乎  

  • 数据标准化/归一化normalization --CSDN  

  • 闲扯淡之机器学习——数据预处理 --CSDN   

  • 数据预处理_数据清理(缺失值、噪声等详细处理)--CSDN  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值