归一化在梯度下降中的作用

    在梯度下降中多数时候原始数据若没经过特征处理,数据的各个维度是存在着量级的差别,假如线性函数Ax+By+b=C,X维度数量级是十,Y的数量级是万,那么求出的A就比B大,那么在用梯度下降求解最优解过程中,对A求偏导每次变化是和X成线性的(结果只和x相关),对B求偏导是和B成线性的(结果只与y相关),这样就造成两个维度下降速度不一致的问题,在图像上面显示就是A每次走的step很小,B的step很大,可能导致某一个维度由于数量级较大已经到达最低点,而其他维度由于数量级的差异未到达最低点,先到达最低点的维度需要等待其他维度,走出的曲线是震荡性较大图像:

一.方差归一化

方差归一化就是在训练模型之前对各个维度的数据除以方差,使各维度数量级相同。这样就不至于谁去等谁,可以走出较平滑的曲线,加快收敛速度。缺点:不能保证数据有正有负

二.均值归一化

方差归一化不能保证数据有正有负,使各维度的梯度方向不能朝着不同的方向前进,假如如下情形,随机梯度初始点为A点,最优解在B点,需要x变小,y变大,如果两个维度全为正数或全为负数,就不能朝着反方向变化,y需要先到C点,再有C到A,均值归一化可以加快梯度收敛的速度。


总结:归一化操作能够加快梯度下降的速度,方差归一化能够使各维度有相同的数量级,但是不能像均值归一化那样保证数据有正有负,所以在应用中经常使用的是方差均值归一化。

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值