含义
数据标准化和归一化存在区别
数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上.
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.
意义
求解需要
比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围
除此之外,最明显的是在神经网络中的影响,主要有四个层面
有利于初始化的进行
避免给梯度数值的更新带来数值问题
有利于学习率数值的调整
搜索轨迹:加快寻找最优解速度
具体情况请参考:神经网络为什么要归一化:
没有归一化前,寻找最优解的过程:
归一化后的过程:
3. 无量纲化(业务上需求上的):
指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.
比如身高与体重,房子数量与收入等.
4. 数值问题
不归一化的数值,比如浮点数可能会产生数值不相等的问题.
5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)
常用公式
min-max标准化(Min-max normalization)
又名离差标准化,是对原始数据的线性转化,公式如下
含义: max : 样本最大值; min: 样本最小值;