关于 RNN 循环神经网络的反向传播求导

最新推荐文章于 2023-05-23 16:09:12 发布

帅到没朋友fx

最新推荐文章于 2023-05-23 16:09:12 发布

阅读量696

点赞数

分类专栏： Python 深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011714517/article/details/119712492

版权

本文详细介绍了RNN循环神经网络的反向传播求导过程，包括RNN架构、神经元及其反向传播计算，通过数学推导和计算图解析了每个时刻的隐藏状态和输出的梯度计算，探讨了反向传播中的参数共享问题和矩阵求导的处理方式。

摘要由CSDN通过智能技术生成

关于 RNN 循环神经网络的反向传播求导

本文是对 RNN 循环神经网络中的每一个神经元进行反向传播求导的数学推导过程，下面还使用 PyTorch 对导数公式进行编程求证。

RNN 神经网络架构

一个普通的 RNN 神经网络如下图所示：

其中 $x^{\langle t \rangle}$ 表示某一个输入数据在 $t$ 时刻的输入； $a^{\langle t \rangle}$ 表示神经网络在 $t$ 时刻时的hidden state，也就是要传送到 $t + 1$ 时刻的值； $y^{\langle t \rangle}$ 则表示在第 $t$ 时刻输入数据传入以后产生的预测值，在进行预测或 sampling 时 $y^{\langle t \rangle}$ 通常作为下一时刻即 $t + 1$ 时刻的输入，也就是说 $x^{\langle t \rangle}=\hat{y}^{\langle t \rangle}$ ；下面对数据的维度进行说明。

输入： $x\in\mathbb{R}^{n_x\times m\times T_x}$ 其中 $n_x$ 表示每一个时刻输入向量的长度； $m$ 表示数据批量数（batch）； $T_x$ 表示共有多少个输入的时刻（time step）。
hidden state： $a\in\mathbb{R}^{n_a\times m\times T_x}$ 其中 $n_a$ 表示每一个 hidden state 的长度。
预测： $y\in\mathbb{R}^{n_y\times m\times T_y}$ 其中 $n_y$ 表示预测输出的长度； $T_y$ 表示共有多少个输出的时刻（time step）。

RNN 神经元

下图所示的是一个特定的 RNN 神经元：

上图说明了在第 $t$ 时刻的神经元中，数据的输入 $x^{\langle t \rangle}$ 和上一层的 hidden state $a^{\langle t \rangle}$ 是如何经过计算得到下一层的 hidden state 和预测输出 $\hat{y}^{\langle t \rangle}$ 。

下面是对五个参数的维度说明：

$W_{aa}\in\mathbb{R}^{n_a\times n_a}$

最低0.47元/天解锁文章

帅到没朋友fx

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。