神经网络学习日记（四）——RNN、LSTM、BiLSTM、GRU

Spark_lr

已于 2024-01-17 17:45:30 修改

阅读量1.5k

点赞数 36

文章标签：神经网络 rnn 学习 lstm gru 循环神经网络深度学习

于 2024-01-15 14:27:41 首次发布

本文链接：https://blog.csdn.net/Spark_lr/article/details/135600365

版权

文章目录

RNN网络结构
长短时记忆网络（LSTM）
双向长短时记忆网络（BiLSTM）
门控神经网络（GRU）

本文是笔者为了完成毕业设计而进行学习的一个个人学习日记

图片和链接均源自网络，侵删

RNN网络结构

RNN作为循环神经网络的基础结构，只能对短期的内容进行记忆，但是是不得不学的。相对于普通的FCNN，它更关注时间序列，随着时间的推进，不断有新的输入加入到RNN中，而每次经过计算后的输出值，会作为部分输入参与到下一个节点的计算中。如下图：

rnn

在标准的RNN中，每个神经元中都只有一个简单的结构，例如一个Sigmoid层或一个Tanh层，将输入变换为(0, 1)或(-1, 1)上的输出，公式如下：
$\sigma(x)=\frac{1}{1+\exp(-x)}\\ tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

深度学习之RNN(循环神经网络)：https://blog.csdn.net/qq_32241189/article/details/80461635

Pytorch循环神经网络（RNN）快速入门与实战：https://blog.csdn.net/weixin_45727931/article/details/114369073

长短时记忆网络（LSTM）

长短时记忆网络，相较于普通的RNN，它解决了短期依赖的问题。LSTM的关键在于细胞状态，它是贯穿于细胞上方的水平线，只存在一些少量的线性交互，信息在上面流传时保持相对小的变化。

lstm

如上图所示，LSTM拥有三种类型的门结构：忘记门、输入门和输出门，来保护和控制细胞状态。

忘记门

忘记门在LSTM神经元中的位置如下图所示。它会读取上一个神经元的输出 $h_{t-1}$ 和当前输入 $x_t$ ，经过一个简单的sigmoid层，输出一个 $f_t$ ，即： $f_t=\sigma(W_{fh}h_{t-1}+W_{fx}x_t+b_f)$ 。

而这个输出 $f_t$ 会与上一个神经元输出的细胞状态 $C_{t-1}$ 相乘，由于 $f_t$ 的值在0到1之间，与原先的细胞状态相乘后，相当于忘记了一定程度 $C_{t-1}$ 的内容。

lstm1

例如，在语言处理中，我们假设原先的细胞状态 $C_{t-1}$ 可能保存着当前主语的信息（如性别等），而当我们看到新的主语时，我们希望丢弃原先的主语信息，防止干扰后续信息的正常流传。

输入门

输入门在LSTM神经元中的位置如下如所示。输入值通过Tanh层产生新的候选值向量 $\tilde{C}_t$ ，它会经过与Sigmoid层产生的 $i_t$ 相乘，Sigmoid层决定了我们需要更新什么值（即 $i_t\times\tilde{C}_t$ ），最后，这个值会加入到细胞状态中。

lstm2

类比到上面的例子中，当我们丢弃了原先的主语信息后，我们需要把新的主语信息加入到细胞状态中，来代替原先的信息。

输出门

经过上面的变化，我们已经得到了新的细胞状态 $C_t$ ，即：
$C_t=f_t\times C_{t-1}+i_t\times\tilde{C}_t$
而新的细胞状态将会有一部分要作为输出，这部分通过Sigmoid层来决定。我们将细胞状态 $C_t$ 经过Tanh层处理后，与Sigmoid门产生的 $o_t$ 相乘，产生了我们需要输出的 $h_t$ 。

lstm3

同样类比到上面的例子，这个输出的部分可能包含了一些主语之外的其他信息，需要通过细胞状态进行推断。

最后，这里还有两张图，但不适合放在这里，就放两个超链接吧：LSTM详细结构图和LSTM结构动图。

如何从RNN起步，一步一步通俗理解LSTM：https://blog.csdn.net/v_JULY_v/article/details/89894058

Pytorch LSTM实现中文单词预测（附完整训练代码）：https://blog.csdn.net/guyuealian/article/details/128582675

时间序列预测——LSTM模型（附代码实现）：https://blog.csdn.net/weixin_52910499/article/details/124693212

双向长短时记忆网络（BiLSTM）

BiLSTM指的是双向LSTM，从上面LSTM的介绍中我们也可以看出，单项的循环神经网络结构模型实际上只是不断参考“上文”和“当前”的信息，而没有考虑到“下文”的信息。在实际语言分析中，我们有可能会需要结合上下文内容，因此，我们有了双向长短时记忆网络。其最终的输出的结果为正向的LSTM结果与反向LSTM结果的简单堆叠。

bilstm

Pytorch实战笔记(1)——BiLSTM 实现情感分析：https://blog.csdn.net/qq_35357274/article/details/128701233

一幅图真正理解LSTM、BiLSTM：https://blog.csdn.net/weixin_42118657/article/details/120022112