RNN原理及公式

最新推荐文章于 2025-04-19 15:15:59 发布

ywm_up

最新推荐文章于 2025-04-19 15:15:59 发布

阅读量1.8k

点赞数

分类专栏： NLP/ML/DL 文章标签： rnn 人工智能深度学习

原文链接：https://blog.csdn.net/qq_39422642/article/details/78676567

版权

NLP/ML/DL 专栏收录该内容

49 篇文章

订阅专栏

直接看这个博客吧，写得很好

一、循环神经网络（RNN）原理通俗解释

在图像处理中，目前做的最好的是CNN
自然语言处理中，表现比较好的是RNN

既然我们已经有了人工神经网络和卷积神经网络，为什么还要循环神经网络？

原因很简单，无论是卷积神经网络，还是人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的
循环神经网络，他的本质是：像人一样拥有记忆的能力。因此，他的输出就依赖于当前的输入和记忆。

RNN结构：

RNN中的结构细节：

可以把 $S_t$ 当作隐状态，捕捉了之前时间点上的信息。就像你去考研一样，考的时候记住了你能记住的所有信息。
$o_t$ 是由当前时间以及之前所有的记忆得到的。就是你考研之后做的考试卷子，是用你的记忆得到的。
很可惜的是， $S_t$ 并不能捕捉之前所有时间点的信息。就像你考研不能记住所有的英语单词一样。
和卷积神经网络一样，这里的网络中每个 cell 都共享了一组参数（U，V，W）,这样就能极大的降低计算量了。
$o_t$ 在很多情况下都是不存在的，因为很多任务，比如文本情感分析，都是只关注最后的结果的。就像考研之后选择学校，学校不会管你到底怎么努力，怎么心酸的准备考研，而只关注你最后考了多少分。

请添加图片描述

用一句话解释RNN，就是一个单元结构重复使用。

定义：

$X_t$ : 表示t时刻的输入
$o_t$ : 表示t时刻的输出
$S_t$ : 表示t时刻的记忆

当前时刻的输出是由：以前的记忆和当前时刻的输入决定的，神经网络最擅长做的就是通过一系列参数把很多内容整合到一起，然后学习这个参数，因此就定义了RNN的基础：

下一状态： $S_t = \sigma( U * X_t + W * S_{t-1} + b)$
当前输出： $o_t = \sigma(V * S_t + c)$

$\sigma()$ 是神经网络中的激活函数
套用一个激活函数，可以用来做一个非线性映射，也可以用来过滤信息

双向 RNN

在有些情况，比如有一部电视剧，在第三集的时候才出现的人物，现在让预测一下在第三集中出现的人物名字，你用前面两集的内容是预测不出来的，所以你需要用到第四，第五集的内容来预测第三集的内容，这就是双向RNN的想法。如图是双向RNN的图解：
请添加图片描述

从前往后：
$S^1_t = \sigma( U^1 * X_t + W^1 * S_{t-1} + b^1)$
$o_t = \sigma( V^1 * S_t + c^1)$

从后往前：
$S^2_t = \sigma( U^2 * X_t + W^2 * S_{t+1} + b^2)$
$o_t = \sigma( V^2 * S_t + c^2 )$

双向RNN需要的内存是单向RNN的两倍，因为在同一时间点，双向RNN需要保存两个方向上的权重参数，在分类的时候，需要同时输入两个隐藏层输出的信息。

深层双向 RNN

深层双向RNN 与双向RNN相比，多了几个隐藏层，因为他的想法是很多信息记一次记不下来，比如你去考研，复习考研英语的时候，背英语单词一定不会就看一次就记住了所有要考的考研单词吧，你应该也是带着先前几次背过的单词，然后选择那些背过，但不熟的内容，或者没背过的单词来背吧。

请添加图片描述

Pyramidal RNN（金字塔型RNN）

请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。