RNN/LSTM/GRU/seq2seq公式推导

最新推荐文章于 2024-07-26 13:24:37 发布

dili8870

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.6k

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/nxf-rabbit75/p/10547841.html

版权

本文详细介绍了RNN、LSTM和GRU的工作原理，包括BPTT算法，以及这些模型在处理序列数据时如何克服短时记忆问题。LSTM通过细胞状态和门控机制增强记忆能力，而GRU则用更新门和重置门简化操作。此外，还探讨了seq2seq模型在序列到序列任务中的应用。

摘要由CSDN通过智能技术生成

　　概括：RNN 适用于处理序列数据用于预测，但却受到短时记忆的制约。LSTM 和 GRU 采用门结构来克服短时记忆的影响。门结构可以调节流经序列链的信息流。LSTM 和 GRU 被广泛地应用到语音识别、语音合成和自然语言处理等。

1. RNN

　　RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时间步传送到后面的时间步。因此，如果你正在尝试处理一段文本进行预测，RNN 可能从一开始就会遗漏重要信息。在反向传播期间，RNN 会面临梯度消失的问题。梯度是用于更新神经网络的权重值，消失的梯度问题是当梯度随着时间的推移传播时梯度下降，如果梯度值变得非常小，就不会继续学习。

（1）图中的 U W V三种权重参数是共享的；

（2）S_t = f(U*Xt + W*St-1)，此处没有写b，有的地方还需要加一个b，f函数一般为tanh；

（3）Ot = softmax(V*St)

随后就是带入数据，更新权重。但这里有一个问题W与U使用bp更新时会有St-1的输入于是乎就有了BPTT的更新算法

　图：RNN 的工作模式, 第一个词被转换成了机器可读的向量，然后 RNN 逐个处理向量序列。

（1）逐一处理矢量序列

处理时，RNN 将先前隐藏状态传递给序列的下一步。而隐藏状态充当了神经网络记忆，它包含相关网络之前所见过的数据的信息.

（2）计算隐藏状态

首先，将输入和先前隐藏状态组合成向量，该向量包含当前输入和先前输入的信息。向量经过激活函数 tanh之后，输出的是新的隐藏状态或网络记忆.

　　激活函数 Tanh：激活函数 Tanh 用于帮助调节流经网络的值。 tanh 函数将数值始终限制在 -1 和 1 之间.

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
RNN/LSTM/GRU/seq2seq公式推导

　　概括：RNN 适用于处理序列数据用于预测，但却受到短时记忆的制约。LSTM 和 GRU 采用门结构来克服短时记忆的影响。门结构可以调节流经序列链的信息流。LSTM 和 GRU 被广泛地应用到语音识别、语音合成和自然语言处理等。1. RNN　　RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时间步传送到后面的时间步。因此，如果你正在尝试处理一段文本...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。