数据预处理与特征工程总结

特征预处理

​ 特征预处理是数据预处理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。

数值型特征无量纲化

​ 无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。

标准化:

​ 标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。

归一化

​ MinMax归一化:区间缩放法利用了边界值信息,将属性缩放到[0,1]

区间缩放法利用了边界值信息,将属性缩放到[0,1]

​ MaxAbs归一化:单独地缩放和转换每个特征,使得训练集中的每个特征的最大绝对值将为1.0,将属性缩放到[-1,1]。它不会移动/居中数据,因此不会破坏任何稀疏性。

正态分布化(Normalization)

​ 正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

数值型特征特征分箱(数据离散化)

​ 离散化是数值型特征非常重要的一个处理,其实就是要将数值型数据转化成类别型数据。连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。

单独地缩放和转换每个特征,使得训练集中的每个特征的最大绝对值将为1.0,将属性缩放到[-1,1]。它不会移动/居中数据,因此不会破坏任何稀疏性。

无监督分箱法

​ 自定义分箱:自定义分箱,是指根据业务经验或者常识等自行设定划分的区间,然后将原始数据归类到各个区间中。

​ 等距分箱:按照相同宽度将数据分成几等份。

​ 等频分箱:将数据分成几等份,每等份数据里面的个数是一样的。

​ 聚类分箱:基于k均值聚类的分箱。

​ 二值化(Binarization):二值化可以将数值型(numerical)的feature进行阀值化得到boolean型数据。这对于下游的概率估计来说可能很有用(比如:数据分布为Bernoulli分布时)。

有监督分箱法

​ 卡方分箱法:自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

​ 最小熵法分箱:需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值