RNN浅谈

椰子奶糖

已于 2022-04-04 17:17:45 修改

阅读量572

点赞数

分类专栏： # 论文阅读杂记文章标签： rnn 神经网络深度学习

于 2021-10-28 20:58:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/symuamua/article/details/121023011

版权

论文阅读杂记专栏收录该内容

51 篇文章 1 订阅

订阅专栏

RNN

文章目录

- - RNN

参考

RNN 解决了什么问题

即应用场景，RNN在处理有时序关系的输入的时候比一般的神经网络更具有优势，原因是一个句子中的前后往往是相联系的，而一般的神经网络只是将句子里的每个词分开来考虑，这样的话对句子这种有时序关系的输入是很不利的，而RNN就考虑了当前词的前面的信息，相对会好很多。
例子就参考一文搞懂RNN（循环神经网络）基础篇这篇的词性标注的例子

RNN的结构

相对FC，RNN多了一层支线——隐藏层的输出s会被权重矩阵 w保存下来，用于下一时刻和新的input一起输入，即上图中右侧公式a所示，本时刻输出的话就加一层softmax（这个可以自行根据任务选择）即可
我们将RNN按照时间序列展开就是这样

RNN的特点

串联结构，体现“前因后果”，即后面结果的生成需要参考前面的信息
所有特征共享参数：
- 减少参数量
- Seq2Seq
- 词不同和词序不同都能学对相应的不同的结果

RNN的损失函数

单个时间步的损失函数
这个可以根据不同任务而自定义
整个序列的损失函数
- 就是整个序列的时间步的损失求和

RNN的反向传播

我重新画了一下图公式还是上面的公式:
$a^{<t>}=W_{ax}x^{<t>}+W_{aa}a^{<t-1>}+b_a\\ y^{<t>}=softmax(W_{ya}a^{<t>}+b_y)$

然后参照吴恩达老师的课（[双语字幕]吴恩达深度学习deeplearning.ai），把它按照时间序列展开：
由于参数是共享的，于是这里化简一下图之后画出BP路线，名为通过时间的反向传播（loss用的交叉熵，不过这不重要）
实际上，上面Y<t+1>在BP的到a<t+1>的时候也会对w_aa做一个梯度

RNN的缺点

当序列太长，容易导致梯度消失
- 怎么理解？就类似于卷积网络深度过深（没有残差的情况），然后导致BP到前几层的时候梯度消失

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
RNN浅谈

RNN文章目录RNN参考RNN 解决了什么问题RNN的结构RNN的特点RNN的损失函数RNN的反向传播RNN的缺点参考循环神经网络RNN论文解读一文搞懂RNN（循环神经网络）基础篇【重温系列】RNN循环神经网络及其梯度消失手把手公式推导+大白话讲解[双语字幕]吴恩达深度学习deeplearning.aiRNN 解决了什么问题即应用场景，RNN在处理有时序关系的输入的时候比一般的神经网络更具有优势，原因是一个句子中的前后往往是相联系的，而一般的神经网络只是将句子里的每个词分开来考虑，这
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

椰子奶糖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。