σ B N = ( x − μ ) 2 N < σ F R N = x 2 N \sigma_{BN}= \sqrt{\frac{(x-\mu)^{2}}{N}}<\sigma_{FRN}=\sqrt{\frac{x^{2}}{N}} σBN=N(x−μ)2<σFRN=Nx2
A = x σ B N 2 + ϵ > B = x σ F R N 2 + ϵ A = \frac{x}{\sqrt{\sigma_{BN}^2+\epsilon}}>B=\frac{x}{\sqrt{\sigma_{FRN}^2+\epsilon}} A=σBN2+ϵx>B=σFRN2+ϵx
从前向传播来看,FRN层比BN层的输出更小。
从反向传播来看:
∂
A
∂
x
=
1
σ
B
N
2
+
ϵ
(
I
−
A
A
T
)
\frac{\partial A}{\partial x}=\frac{1}{\sqrt{\sigma_{BN}^2+\epsilon}}(I-AA^{T})
∂x∂A=σBN2+ϵ1(I−AAT)
∂
B
∂
x
=
1
σ
F
R
N
2
+
ϵ
(
I
−
B
B
T
)
\frac{\partial B}{\partial x}=\frac{1}{\sqrt{\sigma_{FRN}^2+\epsilon}}(I-BB^{T})
∂x∂B=σFRN2+ϵ1(I−BBT)
∣
∂
A
∂
x
∣
−
∣
∂
B
∂
x
∣
≈
A
A
T
σ
B
N
2
+
ϵ
−
B
B
T
σ
F
R
N
2
+
ϵ
>
0
|\frac{\partial A}{\partial x}|-|\frac{\partial B}{\partial x}|\approx \frac{AA^{T}}{\sqrt{\sigma_{BN}^2+\epsilon}}-\frac{BB^{T}}{\sqrt{\sigma_{FRN}^2+\epsilon}}>0
∣∂x∂A∣−∣∂x∂B∣≈σBN2+ϵAAT−σFRN2+ϵBBT>0
因此,FRN层的导数也会比BN层的导数小。这也许可以解释FRN层收敛慢的原因。