昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播
假设待归一化的
这里的极小量
反向传播
假设损失函数
令
两个参数的梯度非常简单:
对输入
推导过程
对输入
这里只需要计算最后一项就行了:
其中
代入可以得到:
最后带入梯度
均值和标准差的梯度
均值的梯度为:
标准差的计算公式可以写成
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
假设待归一化的
这里的极小量
假设损失函数
令
两个参数的梯度非常简单:
对输入
对输入
这里只需要计算最后一项就行了:
其中
代入可以得到:
最后带入梯度
均值的梯度为:
标准差的计算公式可以写成