自然语言处理八

最新推荐文章于 2023-03-09 14:16:21 发布

qq_27678431

最新推荐文章于 2023-03-09 14:16:21 发布

阅读量232

点赞数 1

本文链接：https://blog.csdn.net/qq_27678431/article/details/90579786

版权

1. RNN。
1. RNN。
1.1RNN
循环神经网络，Recurrent Neural Network。神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。
参考：https://www.atyun.com/30234.html
RNN的工作原理是：第一个词被转换成机器可读的向量。然后RNN逐个处理向量序列。

处理时，它将先前的隐藏状态传递给序列的下一步。隐藏状态充当神经网络的记忆。它保存着网络以前见过的数据信息

å¨è¿éæå¥å¾çæè¿°

让我们观察RNN的一个单元格，看看如何计算隐藏状态。首先，将输入和先前隐藏状态组合成一个向量。这个向量现在含有当前输入和先前输入的信息。向量经过tanh激活，输出新的隐藏状态，或网络的记忆。

å¨è¿éæå¥å¾çæè¿°

TANH激活

tanh激活用于帮助调节流经网络的值。tanh函数将值压缩在-1和1之间。

å¨è¿éæå¥å¾çæè¿°

当向量流经神经网络时，由于各种数学运算，它经历了许多变换。假设一个值连续乘以3。你可以看到某些值如何爆炸增长的，导致其他值看起来微不足道。

å¨è¿éæå¥å¾çæè¿°

tanh函数确保值在-1和1之间，从而调节神经网络的输出。你可以看到上面的相同值通过tanh函数保持界限之间。

å¨è¿éæå¥å¾çæè¿°

这是一个RNN。它内部的操作很少，但在适当的情况下（如短序列）工作得很好。RNN使用的计算资源比它的进化变体LSTM和GRU要少得多.

RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。如果 RNN 可以做到这个，他们就变得非常有用。但是真的可以么？答案是，还有很多依赖因素。
有时候，我们仅仅需要知道先前的信息来执行当前的任务。例如，我们有一个语言模型用来基于先前的词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词，我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息。

但是同样会有一些更加复杂的场景。假设我们试着去预测“I grew up in France… I speak fluent French”最后的词。当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什么语言，我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。
不幸的是，在这个间隔不断增大时，RNN 会丧失学习到连接如此远的信息的能力。

在理论上，RNN 绝对可以处理这样的长期依赖问题。人们可以仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN 肯定不能够成功学习到这些知识。如果序列过长会导致优化时出现梯度消散的问题。
然而，幸运的是，LSTM 并没有这个问题！
1.2 双向RNN
Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。
å¨è¿éæå¥å¾çæè¿°

å¨è¿éæå¥å¾çæè¿°

1.3 LSTM 网络
Long Short Term Memory 网络—— 一般就叫做 LSTM ——是一种特殊的 RNN 类型，可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber (1997)提出，并在近期被Alex Graves进行了改良和推广。在很多问题，LSTM 都取得相当巨大的成功，并得到了广泛的使用。

LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力！
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh 层。
LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。LSTM是一种拥有三个“门”结构的特殊网络结构。
å¨è¿éæå¥å¾çæè¿°

LSTM 靠一些“门”的结构让信息有选择性地影响RNN中每个时刻的状态。所谓“门”的结构就是一个使用sigmod神经网络和一个按位做乘法的操作，这两个操作合在一起就是一个“门”结构。之所以该结构叫做门是因为使用sigmod作为激活函数的全连接神经网络层会输出一个0到1之间的值，描述当前输入有多少信息量可以通过这个结构，于是这个结构的功能就类似于一扇门，当门打开时（sigmod输出为1时），全部信息都可以通过；当门关上时（sigmod输出为0），任何信息都无法通过
å¨è¿éæå¥å¾çæè¿°

1.4、GRU的结构。

GRU可以看成是LSTM的变种，GRU把LSTM中的遗忘门和输入们用更新门来替代。把cell state和隐状态ht进行合并，在计算当前时刻新信息的方法和LSTM有所不同。下图是GRU更新ht的过程：

å¨è¿éæå¥å¾çæè¿°

qq_27678431

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理八

1. RNN。 1.1RNN 1.2 双向RNN 1.3 LSTM 网络 1.4、GRU的结构。 1. RNN。 1.1RNN 循环神经网络，Recurrent Neural Network。神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如...
复制链接

扫一扫