Batch Normalization 反向传播(backpropagation )公式的推导

What does the gradient flowing through batch normalization looks like ?

反向传播梯度下降权值参数更新公式的推导全依赖于复合函数求梯度时的链式法则

1. Batch Normalization

给定输入样本 xRN×D ,经过一个神经元个数为 H 的隐层,负责连接输入层和隐层的权值矩阵 wRD×H,以及偏置向量 bRH

Batch Normalization 的过程如下:

  • 仿射变换(affine transformation)

    h=XW+b

    显然 hRN×H

  • batch normalization 变换:

    y=γh^+β

    其中 γ,β 是待学习的参数, h^ h 去均值和方差归一化的形式:

    h^=(hμ)(σ2+ϵ)1/2

    进一步其标量形式如下:

    hˆkl=(hklμl)(σ2l+ϵ)1/2

    l={1,,H} μ σ 分别是对矩阵 hRN×H 的各个属性列,求均值和方差,最终构成的均值向量和方差向量。

    μl=1Nphpl,σ2l=1Np(hplμl)2

2. Lh,Lγ,Lβ 的计算

首先我们来看损失函数 L 关于隐层输入偏导的计算:

dLdh=dLdh11..dLdhN1..dLdhkl...dLdh1H..dLdhNH.

又由于:

h=XW+b,hh^,h^y

由链式法则可知:

Lhij=k,lLyklyklh^klh^klhij

显然其中 yklh^kl=γl

又由于:

hˆkl=(hklμl)(σ2l+ϵ)1/2,μl=1Nphpl,σ2l=1Np(hplμl)2

所以:

dh^kldhij=(δikδjl1Nδjl)(σ2l+ϵ)1/212(hklμl)dσ2ldhij(σ2l+ϵ)3/2

根据 σ2l hij 的计算公式可知:

dσ2ldhij====2Np(hplμl)(δipδjl1Nδjl)p=12N(hilμl)δjl2Nδjl1Np(hplμl)2N(hilμl)δjl2Nδjl1Nphplμl02N(hilμl)δjl

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值