昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播
假设待归一化的mm维向量为xx,均值和标准差分别是μ(x)\mu{(x)}和σ(x)\sigma{(x)},LayerNorm的参数是ww和bb,那么层归一化后的输出为:
y=w⊙x−μσ2+ϵ+b
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
假设待归一化的mm维向量为xx,均值和标准差分别是μ(x)\mu{(x)}和σ(x)\sigma{(x)},LayerNorm的参数是ww和bb,那么层归一化后的输出为:
y=w⊙x−μσ2+ϵ+b