机器学习为什么归一化(normalization)

1.什么是归一化

将数据的数值规约到(0,1)或者是(-1,1)区间,让各维度数据分布接近,避免模型参数被分布范围较大或者较小的数据支配。

2.为什么归一化

机器学习的目标就是不断优化损失函数,使其值最小,未归一化时,使用梯度下降时,梯度方向会偏离最小值方向,使梯度更新总很多弯路,归一化之后,损失函数曲线变得比较圆,有利于梯度下降。
在这里插入图片描述

  • 加快梯度下降,损失函数收敛;—速度上
  • 提升模型精度–也就是分类准确率.(消除不同量纲,便于综合指标评价,提高分类准确率)—质量上
  • 防止梯度爆炸(消除因为数据输入差距(1和2000)过大,而带来的输出差距过大(0.8,999),进而在 反向传播的过程当中,导致梯度过大(因为反向传播的过程当中进行梯度计算,会使用的之前对应层的输入x),从而形成梯度爆炸)—稳定性上

3.归一化的方法

  • Z-Score
    当数据在多个维度上存在显著的大小差的数值时怎么办?例如,如果一个维度的值从 10 到 100,另一维度的值从 100 到 100,000,则很难比较两者的相对变化。Z-Score 将数据按比例缩放,使之落入一个特定区间。
    在这里插入图片描述
  • Linear normalization (“Max-Min”)
    线性归一化
    在这里插入图片描述
  • Batch Normalization
    BN论文解释:由于两个数据不在同一范围,但它们是使用相同的学习率,导致梯度下降轨迹沿一维来回振荡,从而需要更多的步骤才能达到最小值。且此时学习率不容易设置,学习率过大则对于范围小的数据来说来回震荡,学习率过小则对范围大的数据来说基本没什么变化。当进行归一化后,特征都在同一个大小范围,则loss landscape像一个碗,学习率更容易设置,且梯度下降比较平稳。
    在这里插入图片描述
    方法:在一个batch中,在每一BN层中,对每个样本的同一通道,计算它们的均值和方差,再对数据进行归一化,最后使用两个可学习参数gamma和beta对归一化的数据进行缩放和移位。
    此外,在训练过程中还保存了每个mini-batch每一BN层的均值和方差,最后求所有mini-batch均值和方差的期望值,以此来作为推理过程中该BN层的均值和方差。
  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值