【DL】优化/元算法/BatchNormalization(批标准化)

本文探讨了BatchNormalization(BN)在深度学习优化中的作用,解释了为何BN能降低网络优化难度,以及其背后的数学原理。BN通过削弱各层权重间的相互依赖,改善了梯度下降过程中的问题,提高了训练效率。同时,文中提到了BN的缺点——降低网络表示能力,以及通过γ和β参数补偿的解决方案。
摘要由CSDN通过智能技术生成

前言

BatchNormalization算法是一种自适应重参数化的算法,其本质上不是优化算法,也不是正则化算法,但是其可以大幅度提升优化算法的性能,并且带有一定的正则化效果。

在一些训练数据很大的场景中,BatchNormaliztion的正则化功效显著,甚至可以使dropout等算法变得可有可无。但其主要还是作为一种降低网络优化难度的元算法使用。(元算法指易于嵌入其他算法的子算法)

值得注意的是,网上有博主称BN是为了降低Sigmoid和tanh的饱和给网络带来的不利影响,但事实上,这仅仅是BN顺带的红利,其使用relu,maxout,lrelu,prelu等分段线性激活函数时,依然可以大幅度降低网络优化难度(见 DeepLearning Goodfellow, 2016 \text{DeepLearning Goodfellow, 2016} DeepLearning Goodfellow, 2016)。

另外,一些文章经常会提到,BN将每层的输出强行拉回正态分布,这是一种错误的说法,并不是只有正态分布才均值为0,方差为1。虽然这个分布的均值和方差被修改了,但是其还包含更高阶的信息。否则的话每一层输出都是正态分布,浅层的网络不就失效了吗?

为什么深度神经网络难优化?

事实上,深度神经网络的优化一定程度上是基于贪心策略,对于一个多元函数 y ^ = y ^ ( Θ ) \hat{y}=\hat{y}(\Theta) y^=y^(Θ) 来说,这里的贪心主要指两点:

  • 使用梯度下降法进行 θ i \theta_i θi 的更新,就是忽略掉泰勒展开的高阶项 O ( θ i 2 ) O(\theta_i^2) O(θi2) ,所以是贪心
  • 每一个梯度分量 ∂ J ∂ θ i \frac{\partial{J}}{\partial{\theta_i}} θiJ 使用偏导数计算,即假设其他变量都不变,但在更新时同时更新所有的 θ i , i = 1 , 2 , . . . \theta_i,i=1,2,... θi,i=1,2,...,实际上它们都在共同变化,互相影响着。

举个例子来说
假设
h N = x w 1 w 2 . . . w N (1) h_N = xw_1 w_2...w_N \tag{1} hN=xw1w2...wN(1)
对于层 l l l 使用偏导数计算这一层的参数 w l w_l wl 的斜率得到 g l g_l g

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值