LSTM反向传播求导

意念回复

于 2021-06-26 17:47:26 发布

阅读量1.2k

点赞数 3

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39910711/article/details/118252107

版权

深度学习专栏收录该内容

24 篇文章 62 订阅

订阅专栏

目录

1 LSTM结构图和公式

2 反向传播 tips

2.1 本文所有向量全为列向量

2.2 softmax层反向传播

2.3 hadamard积的微分

2.4 softmax求导

3 对 h 和 c 反向传播

3.1 最后时刻LSTM单元内的 h , c 反向传播

3.1.1 最后时刻LSTM单元内的 h 反向传播

3.1.2 最后时刻LSTM单元内的 c 反向传播

3.2 求得递归时刻（不是最后一刻）的反向表达式

3.2.1 求对 h t − 1 的偏导数

3.2.2 求对 c t − 1 的偏导数

4 对参数反向求导

4.1 对bo求偏导

4.2 对Wo求偏导

1 LSTM结构图和公式

将结构图转换为如下所示（将“用于极简”的说明反向传播），实际上当用于反向传播时，所有的箭头的方向都是需要反过来看。

图中τ 代表最后时刻。

2 反向传播 tips

2.1 本文所有向量全为列向量

以最后时刻的构造softmax函数。

2.2 softmax层反向传播

公式（1）结论很简单，但实际上是 L 先对 a 求偏导然后再对 z 求偏导。

2.3 hadamard积的微分

2.4 softmax求导

2.5 tanh求导

3 对 h 和 c 反向传播

在RNN中，为了反向传播误差，我们通过隐藏状态的梯度一步步向前传播。在LSTM这里也类似。只不过我们这里有两个隐藏状态和。

这里我们定义两个δ，即：

3.1 最后时刻LSTM单元内的 h , c 反向传播

3.1.1 最后时刻LSTM单元内的 h 反向传播

最后时刻 τ 相关的变量仅有，则即公式（3）：

3.1.2 最后时刻LSTM单元内的 c 反向传播

因为：

所以：

上述步骤完成了图中(3)式、(9)式。

3.2 求得递归时刻（不是最后一刻）的反向表达式

3.2.1 求对 h t − 1 的偏导数

的梯度由本层 t 时刻的输出梯度误差和大于 t 时刻的误差两部分决定。

不绕道的表达式，相当于仅从路径走，其表达式为(10)，顺便把(11)(12)一起求了。

（公式10）：

因为：

所以：

（公式11）：

因为：

所以：

（公式12）：

因为在公式中，、、包含h的递推关系，且：

所以：

（10）、（11）、（12）公式其实展示的正是下图结构的反向传递。

其实(10)(12)式是可以合并的，合并后的表达式(10_12)：

3.2.2 求对 c t − 1 的偏导数

对的反向传播有两条路径，路径1是直接从过来的，路径2是从过来的：

（公式13）：

因为：

所以：

（公式14）：

因为：

所以：

（公式13_14）：

结合公式13,14：

（13_14）公式其实展示的正是下图结构的反向传递。

4 对参数反向求导

在第3章，得到了以下变量，，，，现在我们需要得到模型的参数。

4.1 对bo求偏导

以对矩阵的偏导数为例，先求的偏导数，根据《链式法则》:

因为：

所以：

又因为：

所以：

4.2 对Wo求偏导

继续求对的偏导数(以简称这个列向量)，根据《链式法则》：

=

继续刷公式：

LSTM反向传播详解Part1：https://blog.csdn.net/csuyhb/article/details/99546576

LSTM反向传播详解Part2：https://blog.csdn.net/csuyhb/article/details/100049042

LSTM反向传播详解（完结篇）Part3/3代码实现：https://blog.csdn.net/csuyhb/article/details/100162814

LSTM模型与前向反向传播算法：https://www.cnblogs.com/pinard/p/6519110.html

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
LSTM反向传播求导

1 LSTM结构图和公式将结构图转换为如下所示（将“用于极简”的说明反向传播），实际上当用于反向传播时，所有的箭头的方向都是需要反过来看。图中τ 代表最后时刻。2 反向传播 tips2.1本文所有向量全为列向量以最后时刻的构造softmax函数。2.2 softmax层反向传播公式（1）结论很简单，但实际上是 L 先对 a 求偏导然后再对 z 求偏导。2.3hadama...
复制链接

扫一扫

专栏目录

意念回复 CSDN认证博客专家 CSDN认证企业博客

码龄7年

188: 原创

4万+: 周排名

89万+: 总排名

138万+: 访问

: 等级

8143: 积分

2046: 粉丝

2315: 获赞

244: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

深度学习 24篇
预测 8篇
Java
信号与系统 4篇
云原生 2篇
机器学习 73篇
机器学习算法 58篇
数据库 3篇
算法 9篇
数据分析 2篇
数据结构 3篇
python 24篇
论文 1篇
Linux 11篇
搜索引擎 1篇
大数据 6篇
git 8篇
FTP 1篇
计算机基础 8篇
最优化方法 2篇
线性代数 2篇
数学 12篇
数理统计 7篇
后端 1篇

最新评论

机器学习算法（二十五）：KD树详解及KD树最近邻算法
angel_one_day: x，y维度上的数据方差是怎么算的，为啥我算的数差那么多
机器学习算法（二十五）：KD树详解及KD树最近邻算法
m0_73654534: 那方差都是0该怎么选啊，就是最前面那张图为什么最后的叶子是按照x来划分的
机器学习算法（九）：神经网络（neural networks，NN）
cts618: 机器学习算法（九）：神经网络（neural networks，NN）
激活函数（Activation Function）
looooop19: 感谢作者！
梯度提升（Gradient Boosting）算法
wjdqingdao: 最后一步除了泰勒展开，也可以这样想。f必然朝着评价函数L减小的方向优化，也就是L对F的负梯度方向，前面定义就是如此。如果评价函数L换个任意凸函数，记为g(y, F)也是一样。根本原因还是梯度下降算法本身就与泰勒展开一阶是一样的。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。