DNN中的BP和RNN中的BPTT推导

最新推荐文章于 2024-05-29 15:15:19 发布

Amy_mm

最新推荐文章于 2024-05-29 15:15:19 发布

阅读量2.7k

点赞数

分类专栏：深度学习 LSTM

本文链接：https://blog.csdn.net/Amy_mm/article/details/81013480

版权

本文介绍了深度神经网络（DNN）中的反向传播（BP）算法，详细阐述了BP的推导过程，以及如何通过BP算法计算权重矩阵和偏置的梯度。随后，文章探讨了循环神经网络（RNN）中的随时间反向传播（BPTT），解释了BPTT如何处理RNN的时间序列特性，并给出了BPTT的梯度计算公式。

摘要由CSDN通过智能技术生成

1.5、BP和BPTT

参考博客：http://www.cnblogs.com/pinard/p/6509630.html

1、反向传播算法（Backpropagation）

反向传播算法要解决的问题

深层神经网络（Deep Neural Network，DNN)由输入层、多个隐藏层和输出层组成，任务分为分类和回归两大类别。如果我们使用深层神经网络做了一个预测任务，预测输出为 $\tilde{y}$ ，真实的为y，这时候就需要定义一个损失函数来评价预测任务的性能，接着进行损失函数的迭代优化使其达到最小值，并得到此时的权重矩阵和偏置值。在神经网络中一般利用梯度下降法（Gradient Descent）迭代求解损失函数的最小值。在深层神经网络中使用梯度下降法迭代优化损失函数使其达到最小值的算法就称为反向传播算法（Back Propagation，BP）。

反向传播算法的推导过程

假设深层网络第L层的输出为 $a_{L}$ :
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ a^{L} &= \sig…$
定义损失函数 $J (w, b, x, y)$ 为：
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ J(w,b,x,y) &= …$
注解： $a_{L}$ 为预测输出, $y$ 为实际值，二者具有相同的维度。 $\parallel \cdot \parallel_{2}$ 代表二范数。
对损失函数运用梯度下降法迭代求最小值，分别求解对于权重矩阵 $W^{L}$ 和偏置 $b^{L}$ 的梯度。

损失函数对权重矩阵的梯度：
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ \frac{\partial…$

损失函数对偏置的梯度：
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ \frac{\partial…$

其中公式中的符号$ \bigodot$ 代表Hadamard积，即维度相同的两个矩阵中位置相同的对应数相乘后的矩阵。

损失函数对于权重矩阵和偏置的梯度含有共同项$\frac{\partial J(w,b,x,y)}{\partial a^{L}} \cdot \frac{\partial a^{L}}{\partial z^{L}} $，令其等于$ \delta^{L}$。

可以求得$ \delta^{L}$为
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ \delta^{L} &…$

知道L层的$ \delta^{L}$就可以利用数学归纳法递归的求出L-1，L_2……各层的梯度。
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ \delta^{l} &…$
又知：

最低0.47元/天解锁文章

Amy_mm

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DNN中的BP和RNN中的BPTT推导

1.5、BP和BPTT参考博客：http://www.cnblogs.com/pinard/p/6509630.html1、反向传播算法（Backpropagation）反向传播算法要解决的问题深层神经网络（Deep Neural Network，DNN)由输入层、多个隐藏层和输出层组成，任务分为分类和回归两大类别。如果我们使用深层神经网络做了一个预测任务，预测输出为ỹ&nb...
复制链接

扫一扫

专栏目录