t:层
:第t-1层隐藏层的输出
y:要优化的目标函数
这里的h都是一些向量,向量关于向量的导数是一个矩阵,这里做了太多的矩阵乘法,就容易导致梯度爆炸和梯度消失的问题。
因此我们既要避免梯度太大,也要避免梯度太小
归一化:比如说把梯度变为一个均值为0,方差为1的数(把过大的值拉回来)
梯度裁剪:比如说梯度大于5,就变成5,即把梯度限制在一定范围内
个人理解:为了将输出和梯度限定在一定范围内,我们从权重初始化和激活函数的选择入手,通过一系列的公式推到,得出不同情况下该怎样进行优化以达到我们的目的