RNN与LSTM学习笔记

最新推荐文章于 2024-03-27 15:53:17 发布

teslacool

最新推荐文章于 2024-03-27 15:53:17 发布

阅读量340

点赞数

本文链接：https://blog.csdn.net/sinat_33006005/article/details/80020989

版权

这篇学习笔记详细介绍了RNN和LSTM的工作原理。RNN因其在处理序列数据时的特性而受到关注，但也存在梯度消失和遗忘问题。LSTM通过细胞状态解决了长期依赖问题，能更好地保留信息。笔记涵盖了RNN的前向传导和反向传播，以及LSTM的基本结构和优势。

摘要由CSDN通过智能技术生成

学习笔记：RNN与LSTM

记录一下学习进度吧。

RNN

Recurrent Neural Network偏重于数据时序上的处理，是一个链式的结构。由于RNN中存在时间上的信息，就可以根据之前出现的信息对当前的信息进行推断，链式的特征揭示了 RNN 本质上是与序列和列表相关的。他们是对于这类数据的最自然的神经网络架构。这可能就是它最大的优势吧。
但是类似于梯度衰减和梯度爆炸，但信息相隔时间过晚，会存在信息遗忘的情况，无法体现优势。
RNN展开结构

RNN前向传导公式示意

s t = t a n h (U x t + W s t - 1)

$s_t=tanh(Ux_t+Ws_{t-1})$

o t = s o f t m a x (V s t)

$o_t=softmax(Vs_t)$
可见前向传导的公式需要记住的状态，仅是多了几个

st s t $s_t$ 。

RNN反向传播

关于v的反向

就是反向传播，和普通的神经网络没有差异

关于w的反向

可见w的反向也是反向传播，但是是多个梯度的累加和。

\partial E N \partial W = \sum k = 0 N \partial E \partial y N ^\partial y ^ N \partial s N \partial s N \partial s k \partial s k \partial W

$\frac{\partial E_N}{\partial W}=\sum_{k=0}^{N}\frac{\partial E}{\partial \hat{y_N}}\frac{\partial \hat{y}_N}{\partial s_N}\frac{\partial s_N}{\partial s_k}\frac{\partial s_k}{\partial W}$
代码实现起来应该还算行吧，只是需要记住每一个状态(虽然目前正在学习，还没有自己实现过)。

关于U的求导

其实从展开图看来，U的求导可能也和W一样，存在多个更新路径，但是由于数据保留的可能必要性看来，只进行了当前状态的更新。和普通的前向传播一样。

LSTM

正如前面介绍的梯度消失和梯度爆炸的问题,当间隔时间过大，有些信息是长期依赖（Long-Term Dependencies）的，而RNN不能很好的解决这个问题，便有了LSTM。
观察如下RNN结构

在重复的结构之中，只有一个简单的激活函数，得到新的状态量 $s_t$ 。
观察如下的LSTM的结构，其中最主要的是最上面的一条水平线，在图中贯穿，叫做细胞状态，由于其只有少量的信息交互，故能够保证信息较小的变化，保持长久的记忆。

如下是对其中 $\sigma$ 、 $tanh$ 和两个pointwise_operation的理解：