博客园刘建平Pinard神经网络博文: RNN

最新推荐文章于 2022-11-22 18:50:02 发布

EverNoob

最新推荐文章于 2022-11-22 18:50:02 发布

阅读量607

点赞数

分类专栏： Notes Machine_Learning 文章标签：神经网络

原文链接：https://www.cnblogs.com/pinard/p

版权

Notes 同时被 2 个专栏收录

140 篇文章 0 订阅

订阅专栏

Machine_Learning

54 篇文章 1 订阅

订阅专栏

RNN

循环神经网络(RNN)模型与前向反向传播算法

　在前面我们讲到了DNN，以及DNN的特例CNN的模型和前向反向传播算法，这些算法都是前向反馈的，模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络：循环神经网络(Recurrent Neural Networks ，以下简称RNN)，它广泛的用于自然语言处理中的语音识别，手写书别以及机器翻译等领域。

1. RNN概述

　　　　在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。

下面我们来看看RNN的模型。

2. RNN模型

　　　　RNN模型有比较多的变种，这里介绍最主流的RNN模型结构如下：

　　　　上图中左边是RNN模型没有按时间展开的图，如果按时间序列展开，则是上图中的右边部分。我们重点观察右边部分的图。

　　　　这幅图描述了在序列索引号 𝑡 附近RNN的模型。其中：

3. RNN前向传播算法

　　　　有了上面的模型，RNN的前向传播算法就很容易得到了。

recall

==> vanishing gradient possible for long back-propagation. ==> "RNN所谓梯度消失的真正含义是，梯度被近距离梯度主导，远距离梯度很小，导致模型难以学到远距离的信息。" from https://zhuanlan.zhihu.com/p/136223550

4. RNN反向传播算法推导

　　　　有了RNN前向传播算法的基础，就容易推导出RNN反向传播算法的流程了。RNN反向传播算法的思路和DNN是一样的，即通过梯度下降法一轮轮的迭代，得到合适的RNN模型参数𝑈,𝑊,𝑉,𝑏,𝑐。由于我们是基于时间反向传播，所以RNN的反向传播有时也叫做BPTT(back-propagation through time)。当然这里的BPTT和DNN也有很大的不同点，即这里所有的 𝑈,𝑊,𝑉,𝑏,𝑐 在序列的各个位置是共享的，反向传播时我们更新的是相同的参数。

　　　　为了简化描述，这里的损失函数我们为交叉熵损失函数，输出的激活函数为softmax函数，隐藏层的激活函数为tanh函数。

　　　　对于RNN，由于我们在序列的每个位置都有损失函数，因此最终的损失 𝐿 为：

5. RNN小结

　　　　上面总结了通用的RNN模型和前向反向传播算法。当然，有些RNN模型会有些不同，自然前向反向传播的公式会有些不一样，但是原理基本类似。

　　　　RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。在语音识别，手写书别以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的一个特例LSTM，下一篇我们就来讨论LSTM模型。

LSTM模型与前向反向传播算法

　在循环神经网络(RNN)模型与前向反向传播算法中，我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

1. 从RNN到LSTM

　　　　在RNN模型里，我们讲到了RNN具有如下的结构，每个序列索引位置t都有一个隐藏状态ℎ(𝑡)h(t)。

由于RNN梯度消失的问题，大牛们对于序列索引位置 t 的隐藏结构做了改进，可以说通过一些技巧让隐藏结构复杂了起来，来避免梯度消失的问题，这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种，这里我们以最常见的LSTM为例讲述。LSTM的结构如下图：

　　　　可以看到LSTM的结构要比RNN的复杂的多，真佩服牛人们怎么想出来这样的结构，然后这样居然就可以解决RNN梯度消失的问题？由于LSTM怎么可以解决梯度消失是一个比较难讲的问题，我也不是很熟悉，这里就不多说，重点回到LSTM的模型本身。

see https://zhuanlan.zhihu.com/p/136223550 for why LSTM can deal with vanishing gradient

==> it maps the gradient value to [0,1] for each time step in short.