反向传播是计算深度学习模型参数梯度的方法。总的来说,反向传播中会依据微积分中的链式法则,按照输出层、靠近输出层的隐含层、最近输入层的隐含层和输入层的次序,依次计算并存储模型损失函数有关模型各层的中间变量和参数的梯度
反向传播对于各层中变量和梯度的计算可能会依赖各层变量和参数的当前值
正向传播:对深度学习模型按照输入层、最近输入层的隐含层、靠近输出层的隐含层和输出层的次序,依次计算并存储模型的中间变量叫做正向传播。
在这门课的开始先通过跑一个程序写歌词的那个程序,先跑成功了。然后通过修改去掉了梯度修剪那段的代码(梯度修剪部分代码的作用是防止出现梯度爆炸和梯度衰减,具体做法是如果一个梯度特别大,那么就投影到一个较小的尺度上,假设我们把所有梯度接成一个向量g,假设剪裁的阈值是Q,那么我们这样剪裁使得||g||不会超过Q,具体如图),回报”math out of range”数据错误,也就是数据过大等错误。是因为梯度爆炸的原因。
通过讲解我获得的最大收获就是:
1,方向传播可以理解为把最后的损失函数L,通过链式法则与前面层的参数链接起来&#