循环神经网络RNN与LSTM

最新推荐文章于 2022-08-18 13:54:45 发布

小白逆袭记

最新推荐文章于 2022-08-18 13:54:45 发布

阅读量594

点赞数

文章标签：神经网络 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Big_Older/article/details/106224009

版权

文章目录

1. 神经网络与循环神经网络

背景: 传统神经网络包括CNN,输入和输出都是相互独立的
- 图像上的猫和狗是分割开的,但有些任务,后续的输出和之前的内容是相关的
- “我是中国人,我的母语是__”
RNN 引入"记忆"的概念
- 循环2字来源于其中每个元素都执行相同的任务
- 但是输出依赖于"输入"和"记忆"

1.1 强大的功能

1.2 层级结构

把序列按时间展开

在这里插入图片描述

$X_t$ 是时间t处的输入
$S_t$ 是时间t处的"记忆", $S_t=f(UX_t+WS_{t-1})$ ,f可以是tanh等
$O_t$ 是时间t时的输出,比如是预测下个词的话,可能是softmax输出的属于每个候选词的概率
可以把隐状态 $S_t$ 视作当前的"记忆体",捕捉了之前时间点上的信息
输出 $O_t$ 由当前时间及之前所有的"记忆"共同计算得到
很可惜,在实际应用中, $S_t$ 并不能捕捉和保留之前所有信息(记忆有限)
不同于CNN,这里的RNN其实整个神经网络都共享一组参数(U,V,W),极大减小了需要训练和预估的参数量
图中的 $O_t$ 在有任务下是不存在的,比如文本情感分析,其实只需要最后的output结果就行

1.3 多种RNN

双向RNN
- 有些情况下,当前的输出不只依赖于之前的序列元素,还可能依赖之后的序列元素
- 比如从一段话踢掉部分词,让你补全
- 直观理解:2个RNN叠加
深层双向RNN
- 和双向RNN的区别是每一步/每个时间带你我们设定多层结构

2. LSTM

2.1 长时间依赖问题

2.2 "记忆细胞"与状态

3. LSTM变体

3.1 GRU等

词向量可以体现两个词之间的距离

小白逆袭记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。