二阶矩和方差在前向传播和反向传播的作用分析

σ B N = ( x − μ ) 2 N < σ F R N = x 2 N \sigma_{BN}= \sqrt{\frac{(x-\mu)^{2}}{N}}<\sigma_{FRN}=\sqrt{\frac{x^{2}}{N}} σBN=N(xμ)2 <σFRN=Nx2

A = x σ B N 2 + ϵ > B = x σ F R N 2 + ϵ A = \frac{x}{\sqrt{\sigma_{BN}^2+\epsilon}}>B=\frac{x}{\sqrt{\sigma_{FRN}^2+\epsilon}} A=σBN2+ϵ x>B=σFRN2+ϵ x

从前向传播来看,FRN层比BN层的输出更小。
从反向传播来看:
∂ A ∂ x = 1 σ B N 2 + ϵ ( I − A A T ) \frac{\partial A}{\partial x}=\frac{1}{\sqrt{\sigma_{BN}^2+\epsilon}}(I-AA^{T}) xA=σBN2+ϵ 1(IAAT)
∂ B ∂ x = 1 σ F R N 2 + ϵ ( I − B B T ) \frac{\partial B}{\partial x}=\frac{1}{\sqrt{\sigma_{FRN}^2+\epsilon}}(I-BB^{T}) xB=σFRN2+ϵ 1(IBBT)

∣ ∂ A ∂ x ∣ − ∣ ∂ B ∂ x ∣ ≈ A A T σ B N 2 + ϵ − B B T σ F R N 2 + ϵ > 0 |\frac{\partial A}{\partial x}|-|\frac{\partial B}{\partial x}|\approx \frac{AA^{T}}{\sqrt{\sigma_{BN}^2+\epsilon}}-\frac{BB^{T}}{\sqrt{\sigma_{FRN}^2+\epsilon}}>0 xAxBσBN2+ϵ AATσFRN2+ϵ BBT>0
因此,FRN层的导数也会比BN层的导数小。这也许可以解释FRN层收敛慢的原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值