循环神经网络RNN的前向传播与反向传播

最新推荐文章于 2024-07-31 18:13:02 发布

随风秀舞

最新推荐文章于 2024-07-31 18:13:02 发布

阅读量1.6k

点赞数 2

分类专栏：人工智能/深度学习/机器学习文章标签：循环神经网络 RNN 反向传播梯度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasonleesjtu/article/details/89432509

版权

本文详细介绍了循环神经网络（RNN）的模型、前向传播过程和反向传播算法，包括激活函数、输出计算、梯度计算等，并探讨了RNN在处理长序列依赖时的缺点及LSTM的解决方案。

摘要由CSDN通过智能技术生成

文章目录

1. RNN模型

在这里插入图片描述

2. RNN的前向传播

对于当前的索引号 $t$ ，隐藏状态 $h^t$ 由 $x^t$ 和 $h^{t-1}$ 共同得到：
$h^t = \tanh(Ux^t+Wh^{t-1}+b) \tag{1}$
其中选用了tanh作为激活函数， $b$ 是bias。

每次网络的输出值：
$o^t = Vh^t + c \tag{2}$

输出的预测值：
$a^t = \text{softmax}(o^t) = \text{softmax}(Vh^t+c) \tag{3}$

使用交叉熵损失函数：
$L^t = -\sum_{i=1}^Ny_i^t\log a_i^t = -\log a_k^t$
化简的结果是因为在所有的 $N$ 个分类中，只有 $y_k=1$

3. RNN的反向传播

RNN的反向传播有时也叫做BPTT(back-propagation through time)，所有的参数 $U, W, V, b, c$ 在网络的各个位置都是共享的。

成本函数：
$\sum_{t=1}^mL^t$
其中 $m$ 是训练集的数据量。

从《交叉熵的反向传播梯度推导（使用softmax激活函数）》一文得知，
$\frac{\partial L^t}{\partial o^t} = a^t - y^t$

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。