葫芦书笔记----循环神经网络（RNN）

最新推荐文章于 2021-11-30 16:41:08 发布

沃·夏澈德

最新推荐文章于 2021-11-30 16:41:08 发布

阅读量389

点赞数 1

分类专栏：葫芦书笔记文章标签：循环神经网络 RNN

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/109244430

版权

葫芦书笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

循环神经网络（RNN）是处理序列数据的有效深度学习模型，通过内部状态来捕获上下文信息。然而，RNN存在梯度消失或爆炸的问题，这导致了LSTM（长短时记忆网络）的出现。LSTM通过遗忘门、输入门和输出门解决长期依赖问题，其内部使用Sigmoid和Tanh激活函数。在实践中，使用ReLU作为RNN激活函数需谨慎初始化权重，以避免数值问题。Seq2Seq模型将在后续讨论。

摘要由CSDN通过智能技术生成

循环神经网络

循环神经网络（RNN）是用来建模序列化数据的一种主流深度学习模型。

##循环神经网络和卷积神经网络

速记：循环圣经网络可以很好地处理文本数据变长并且有序的输入序列

详细：RNN可以将前面阅读到的有用信息编码到状态变量中去，从而拥有了一定的记忆能力，可以更好地理解之后的文本。

RNN的前向传播公式
$net_t=Ux_t+Wh_{t-1}$

$h_t=f(net_t)$

$y=g(Vh_T)$

其中，f和g为激活函数，U为输入层到隐藏层的权重矩阵，W为隐含层从上一时刻到下一时刻状态转移的权重矩阵。

循环神经网络的梯度消失问题

循环神经网络为什么会出现梯度消失或梯度爆炸？有哪些改进方案？

速记：使用BPTT（基于时间的反向传播）来求解时，纯铜的循环神经网络梯度可以表示成连城的形式，原因和普通神经网络相似。改进方法为LSTM，GRU等变种模型。

在循环神经网络中能否使用ReLU作为激活函数？

速记：可以，但是需要对矩阵的初值做一定限制，否则容易引发数值问题。

详细：为解释这个问题，先给出RNN的前向传播公式
$net_t=Ux_t+Wh_{t-1}$

$h_t=f(net_t)$

根据前向传播公式向前传递一层，可以得到
$net_t=Ux_t+Wh_{t-1}=Ux_t+Wf(Ux_{t-1}+Wh_{t-2})$
如果采用ReLU替代公式中的激活函数 $f$ ，并且假设ReLU函数一直处于激活区域（即输入大于0），则有 $f(x)=x,net_t=Ux_t+W(Ux_{t-1}+Wh_{t-2})$ ，继续将其展开， $net_t$ 的表达式中最终会包含t个W连乘。如果W不是单位矩阵，最终结果将会居于0或者无穷，依法严重的数值问题。即使采用了ReLU激活函数，只要W不是单位矩阵梯度还是会消失或者爆炸。

综上所述，当采用ReLU作为循环神经网络中隐含层的激活函数时，只有当W 的取值在单位矩阵附近时才能取得比较好的效果，因此需要将W初始化为单位矩阵。实验证明，初始化W为单位矩阵并使用ReLU激活函数在一些应用中取得了与长短期记忆模型相似的结果，并且学习速度比长短期记忆模型更快，是一个值得尝试的小技巧。

##长短时记忆网络（LSTM）