nlp学习8_假设训练集中的文本长度为n,对于每个输入的文本,可以在rnn的每个时间步输入文本中-CSDN博客

本文链接：https://blog.csdn.net/weixin_38745403/article/details/95652394

RNN的提出背景

RNN通过每层之间节点的连接结构来记忆之前的信息，并利用这些信息来影响后面节点的输出。RNN可充分挖掘序列数据中的时序信息以及语义信息，这种在处理时序数据时比全连接神经网络和CNN更具有深度表达能力，RNN已广泛应用于语音识别、语言模型、机器翻译、时序分析等各个领域。

RNN的训练方法——BPTT算法

循环神网络的训练算法是Backpropagation Through Time,BPTT算法，其基本原理和反向传播算法是一样的，只不过反向传播算法是按照层进行反向传播，BPTT是按照时间t进行反向传播。

RNN中出现的问题

梯度消失：RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间，反向传播时更新前面时刻的参数时，当参数W初始化为小于1的数，则多个(tanh函数’ * W)相乘，将导致求得的偏导极小（小于1的数连乘），从而导致梯度消失。
梯度爆炸：当参数初始化为足够大，使得tanh函数的倒数乘以W大于1，则将导致偏导极大（大于1的数连乘），从而导致梯度爆炸。
参考：https://blog.csdn.net/jizhidexiaoming/article/details/81743584

双向RNN

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。

递归神经网络

循环神经网络，它可以用来处理包含序列结构的信息。然而，除此之外，信息往往还存在着诸如树结构、图结构等更复杂的结构。对于这种复杂的结构，循环神经网络就无能为力了。本文介绍一种更为强大、复杂的神经网络：递归神经网络 (Recursive Neural Network, RNN)，以及它的训练算法BPTS (Back Propagation Through Structure)。顾名思义，递归神经网络（巧合的是，它的缩写和循环神经网络一样，也是RNN）可以处理诸如树、图这样的递归结构。

LSTM、GRU的结构

LSTM：上面介绍的RNN模型，存在“长期依赖”的问题。LSTM可以很好的解决这类问题。与简单RNN结构中单一tanh循环体不同的是，LSTM使用三个“门”结构来控制不同时刻的状态和输出。所谓的“门”结构就是使用了sigmoid激活函数的全连接神经网络和一个按位做乘法的操作，sigmoid激活函数会输出一个0~1之间的数值，这个数值描述的是当前有多少信息能通过“门”，0表示任何信息都无法通过，1表示全部信息都可以通过。其中，“遗忘门”和“输入门”是LSTM单元结构的核心。
GRU：门控循环单元(Gated Recurrent Unit，GRU)网络将输入门与和遗忘门合并成一个门:更新门。GRU不引入额外的记忆单元，直接在当前状态ht和历史状态ht−1之间引入线性依赖关系。

Text-RNN

把RNN运用到文本分类任务中。在对文本进行分类时，一般会指定一个固定的输入序列/文本长度：该长度可以是最长文本/序列的长度，则所有文本/序列都要进行填充以达到该长度；该长度也可以是训练集中所有文本/序列长度的均值，此时对于过长的文本/序列需要进行截断，过短的文本则进行填充。总之，要使得训练集中所有的文本/序列长度相同，该长度除之前提到的设置外，也可以是其他任意合理的数值。在测试时，也需要对测试集中的文本/序列做同样的处理。
假设训练集中所有文本/序列的长度统一为n，对文本进行分词，并使用词嵌入得到每个词固定维度的向量表示。对于每一个输入文本/序列，在RNN的每一个时间步长上输入文本中一个单词的向量表示，计算当前时间步长上的隐藏状态，然后用于当前时间步骤的输出以及传递给下一个时间步长并和下一个单词的词向量一起作为RNN单元输入，然后再计算下一个时间步长上RNN的隐藏状态，以此重复…直到处理完输入文本中的每一个单词，由于输入文本的长度为n，所以要经历n个时间步长。
代码参考：
https://www.cnblogs.com/jiangxinyang/p/10207482.html
https://zhuanlan.zhihu.com/p/40119926
https://zhuanlan.zhihu.com/p/40182925