https://www.jianshu.com/p/1092578cdc1c
经常看到现在在神经网络的layer的矩阵乘法后面加个norm,就考虑这个操作到底对反向传播是否有贡献,看了一下前向的计算方式,再找的这篇反向传播的推导,逐渐理解内涵。
前向的norm很好计算,就是一个向量 除以 向量的2范数,具体到计算例如:
[1,2,3] 经过norm,
反向传播的推导公式见上面的链接(写的不错)
https://www.jianshu.com/p/1092578cdc1c
经常看到现在在神经网络的layer的矩阵乘法后面加个norm,就考虑这个操作到底对反向传播是否有贡献,看了一下前向的计算方式,再找的这篇反向传播的推导,逐渐理解内涵。
前向的norm很好计算,就是一个向量 除以 向量的2范数,具体到计算例如:
[1,2,3] 经过norm,
反向传播的推导公式见上面的链接(写的不错)