C4.5连续值处理方法
1.二分法:
说白了,就是按照连续值进行排序,根据数值生成n-1个平均值(上述计算公式);
例子:
密度进行信息增益计算:
(1)原始score集合:{a1,a2,……,an}= {0.697,0.774,0.634,0.608,0.556,0.403,0.481,0.437,0.666,0.243,0.245,0.343,0.639,0.657,0.360,0.593,0.719}
(2)sort之后score集合:{a1,a2,……,an}={0.243,0.245,0.343,0.360,0.437,0.481,0.556,0.593,0.608,0.634,0.639,0.657,0.666,0.697,0.719,0.774}
(3)平均值:{a1,a2,……,an}= {0.244 , 0.294, 0.351, 0.381, 0.420, 0.459, 0.518,0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}.
(4)分别计算a1,a2,…,an的信息增益;
(4)选择信息增益最大的结果作为分裂点,Gain(D,a,t)=0.263(t=0.381)z q z q
常见连续值处理方法
背景:当点击数量分别为1和2时,不能说明2一定就比1好;
常见方法:
(1)归一化
归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的,即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布;
归一化作用:
1.数据被限定在一定的范围内,从而消除奇异样本数据导致的不良影响;
2.归一化后加快了梯度下降求最优解的速度(训练过程中,没有经过归一化的数据梯度寻优波动比较大,经过归一化后,梯度寻优波动较小);
3.归一化有可能提高精度(如KNN,距离的计算依赖较大的那些特征)
a.max-min归一化
b.均值归一化
c. 小数位数归一化
d.向量归一化
e.指数归一化(softmax,sigmoid)
f.均值方差归一化
公式:
(2)标准化
标准化:不改变数据的分布,只会改变数据分布的均值和方差;在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1,这个方法被广泛的使用在许多机器学习算法中(例如:支持向量机、逻辑回归和类神经网络)。
标准化作用:
1.不同度量特征之间具有可比性,对目标函数的影响提现在几何分布上,而不是数值上
2.不改变原始数据的分布, 好处在于进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)
公式:x* = (x - μ ) / σ
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
(3)离散化
数据离散化(也叫数据分组)是指将连续的数据进行分组,使其变为一段段离散化的区间,离散化后的特征根据其所在的组进行One-Hot编码。
-
二值化分组
二值化分组比较好理解,即将离散特征根据某个值划分成两个字段。 -
等宽分组
等宽分组的原理是,根据分组的个数得出固定的宽度,分到每个组中的变量的宽度是相等的。 -
等频分组
等频分组也叫分位数分组,即分组后每组的变量个数相同。 -
单变量分组
单变量分组也叫秩分组。其原理是:将所有变量按照降序或升序排序,排序名次即为排序结果,即将值相同的变量划分到同一组。 -
基于信息熵分组
(4)缺失值处理
1.删除缺失值数据:当缺失值数据是完全缺失,且数据量比较少时,可直接删除缺失谁
2.插补缺失值
a.均值
b.利用同类均值插补
c.极大似然估计:常见EM方法,适用于大样本;缺失:计算复杂,可能陷入局部极值;
d.多重插补:多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
常见方法为前2种;
归一化和标准化区别和联系:
联系:归一化和标准化都是对数据的线性变换;二者都不会改变原始数据排列顺序的线性变换;当模型没有涉及对距离的计算,没有关于对变量间标准差的衡量。则不需要进行归一化和标准化;
区别:
1.归一化会严格限定变换后数据的范围,比如[0,1];而标准化没有严格的区间,变换后的数据没有范围,只有其均值为0,标准差为1;
2.归一化对数据的缩放比例仅仅和极值有关,除去极大值和极小值其他数据都更换掉,缩放比例Xmax-Xmin是不变的;标准化,除去极大值和极小值其他数据都更换掉,那么均值和标准差大概率会改变,这时候,缩放比例自然也改变了;
用法:
如果把所有维度的变量一视同仁,在最后计算距离中发挥相同的作用应该选择标准化,如果想保留原始数据中由标准差所反映的潜在权重关系应该选择归一化。另外,标准化更适合现代嘈杂大数据场景。
标准差和方差的联系
统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数;标准差是总体各单位标准值与其平均数离差平方的算术平均数的平方根。
参考文献:
特征工程|连续特征的常见处理方式(含实例)_abcdefg90876的博客-CSDN博客
归一化和标准化区别_bl128ve900的博客-CSDN博客_归一化和标准化的区别
https://www.zhihu.com/question/20467170一篇文章告诉你标准化和归一化的区别? _融融网
归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered) - 简书