特征预处理
特征预处理是数据预处理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。
数值型特征无量纲化
无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。
标准化:
标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。
归一化
MinMax归一化:区间缩放法利用了边界值信息,将属性缩放到[0,1]
区间缩放法利用了边界值信息,将属性缩放到[0,1]
MaxAbs归一化:单独地缩放和转换每个特征,使得训练集中的每个特征的最大绝对值将为1.0,将属性缩放到[-1,1]。它不会移动/居中数据,因此不会破坏任何稀疏性。
正态分布化(Normalization)
正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。
数值型特征特征分箱(数据离散化)
离散化是数值型特征非常重要的一个处理,其实就是要将数值型数据转化成类别型数据。连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。
单独地缩放和转换每个特征,使得训练集中的每个特征的最大绝对值将为1.0,将属性缩放到[-1,1]。它不会移动/居中数据,因此不会破坏任何稀疏性。
无监督分箱法
自定义分箱:自定义分箱,是指根据业务经验或者常识等自行设定划分的区间,然后将原始数据归类到各个区间中。
等距分箱:按照相同宽度将数据分成几等份。
等频分箱:将数据分成几等份,每等份数据里面的个数是一样的。
聚类分箱:基于k均值聚类的分箱。
二值化(Binarization):二值化可以将数值型(numerical)的feature进行阀值化得到boolean型数据。这对于下游的概率估计来说可能很有用(比如:数据分布为Bernoulli分布时)。
有监督分箱法
卡方分箱法:自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
最小熵法分箱:需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。