目录
一、为什么需要对特征进行归一化
原因:消除数据特征之间的量纲影响,加速模型收敛,提高模型泛化能力。
适用模型:比如线性回归、逻辑回归、支持向量机、神经网络等模型,而决策树模型中则不需要归一化处理。
二、常见归一化方法
2.1 归一化方法分类
特征取值归一化到[0,1]区间。常用的归一化方法包括
a). 函数归一化:通过映射函数将特征取值映射到[0,1]区间,例如最大最小值归一化方法,是一种线性的映射。还有通过非线性函数的映射,例如log函数等。
b). 分维度归一化:可以使用最大最小归一化方法,但是最大最小值选取的是所属类别的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。
c). 排序归一化:不管原来的特征取值是什么样的,将特征按大小排序,根据特征所对应的序给予一个新的值。