优化篇-【归一化】

#【归一化】

1.归一化的概率和作用

1.1 什么是归一化

在这里插入图片描述

1.2.归一化的作用

  • 除去量纲的干扰

    去均值与归一化,加速梯度下降的求解速度

  • 重新调整数据分布

    深度网络中数据分布如果在某一层开始有明显的偏移,会使接下来这一问题加剧

2.常用的归一化

2.1. Batch Normalization

在这里插入图片描述

2.2.Batch Normalization的好处

1-减轻了对参数初始化的依赖

2-训练更快,可以使用更高的学习率

3-一定程度上增加了泛化能力,drop等技术不再需要

2.3.Batch Normalization的缺点

1-对小的Batch敏感,不适合在线学习等使用单例进行模型参数更新的场景

2-不合适 rnn 等动态的网络结构,同一个batch中训练实例又长又短

2.3. Batch Normalization改进

  • batch renormalization,增加样本相关的变换

x i ′ = x i − μ β σ β ⋅ r + d r = σ β σ , d = μ β − μ σ x_{i}^{\prime}=\frac{x_{i}-\mu_{\beta}}{\sigma_{\beta}} \cdot \mathrm{r}+\mathrm{d} \quad r=\frac{\sigma_{\beta}}{\sigma}, \mathrm{d}=\frac{\mu_{\beta}-\mu}{\sigma} xi=σβxiμβr+dr=σσβ,d=σμβμ

μ : = μ + α ( μ β − μ ) σ : = σ + α ( σ β − σ ) \mu :=\mu+\alpha\left(\mu_{\beta}-\mu\right) \\\sigma :=\sigma+\alpha\left(\sigma_{\beta}-\sigma\right) μ:=μ+α(μβμ)σ:=σ+α(σβσ)

实际的使用:

  1. 先使用 BN 训练到一个相对稳定的状态
  2. 稳定后再使用Batch Renormalization ,r和d在一定大小范围内迭代

2.4.其他Normalization

在这里插入图片描述

3.关于归一化的思考

3.1.为什么归一化有效

  1. 调整了数据的分布,保证了梯度的有效性
  2. 可以使用更大的学习率,跳出不好的局部极值,增强泛化能力
  3. 平滑了损失平面,减少了局部值,降低了优化的困难
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值