RNN-循环神经网络（笔记）

最新推荐文章于 2024-10-18 11:21:51 发布

Hz_Ottycd

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量74

点赞数

文章标签： rnn 人工智能深度学习

本文链接：https://blog.csdn.net/Hz_Ottycd/article/details/132768755

版权

循环神经网络（RNN）

循环神经网络最终要的一点是为模型增加了时序信息。

从公式上来看，他比MLP多了个时序的表达式。 $\mathbf{W}_{hh}\mathbf{h}_{t-1}$ 代表的就是时序信息的计算公式。其实正真的时序信息存储在权重 $\mathbf{W}_{hh}$ 中，但是这个权重要乘以上一个隐变量才能成为可以对model产生影响的有用的信息。

分类问题一般使用【交叉熵】作为损失函数，一个语言模型也可以看作是分类问题。比如中文一共有n个字符，语言模型输出的一定是其中一个字符。这个对应于做一个n类的分类问题，输出是其中一个类。

基于这种理念，语言模型也可以用【交叉熵】来衡量。 $-\log p(x_t|x_{t-1},...)$ 是交叉熵公式。针对使用RNN的语言模型，它做的任务可能是通过一个词，推测接下来这个人说什么。那就设它要推测n个词，也就是推测n次，那所谓的【平均交叉熵】其实就是对每个词的交叉熵做平均（求和再除n）。

之前讲过一个叫数值稳定性的东西（可能出现梯度过小或梯度爆炸）。梯度裁剪的目的就是为了保证数值稳定，根本的原理就是 $\mathbf{g}\leftarrow\min\left(1,\frac\theta{\|\mathbf{g}\|}\right)\mathbf{g}$ 。当梯度（g）小于θ， $\frac\theta{\|\mathbf{g}\|}$ 就会变大，经过min函数，g = 1 * g。如果g大于θ， $\frac\theta{\|\mathbf{g}\|}$ 就比1小，结果就是 $\frac\theta{\|\mathbf{g}\|}$ * g，得到θ，最终g = θ。这样就控制了梯度。

一般，RNN都是要做梯度剪裁的，因为隐层很多（有128的）

在实际使用RNN的时候，我们往往会采用随机采样进行训练，原因如下：

随机采样增强了RNN的模型泛化性
从理论上讲完整的输入一大段文本有助于训练，更能体现文本之间的逻辑关系。但是RNN记不住很长的序列，既然如此，不如选择随机采样，还可以增强模型泛化性。

门控循环单元（GRU）

门控单元出现的原因：RNN中有隐变量，随着时间的增长，这个隐变量所包含的信息会不断增多。但随着时间的推进，前面的时序信息会变得不重要。因此通过门控单元来调整和遗忘前面的信息。

GRU可以用在大一点的数据集上

更新门：确定哪些状态值得记录并学习。

重置门：丢弃部分隐藏状态。

Rt是重置门，Zt是更新门。

首先， $R_t$ 是一个0-1之间的数，因为它的计算公式中用了sigmoid。 $\odot$ 的意思是按元素相乘（ $R_t$ 和 $\boldsymbol{H}_{t-1}$ 是向量）。如果 $R_t$ 中所有元素的值都接近0，那代表 $\boldsymbol{R}_t\odot\boldsymbol{H}_{t-1}$ 的结果也接近0，这相当于把 $\boldsymbol{H}_{t-1}$ 遗忘了；反之，则记住。

这个是正真的计算隐状态的公式，需要用到候选隐状态。这里的 $Z_t$ 也是在0-1之间。两个极端情况：当 $Z_t$ =1的时候， $H_t = H_{t-1}$ ,这时候隐状态就不更新了，直接延用上一个隐状态，即丢弃新输入的x（RNN中，当前隐状态由上一个隐状态和当前input同时组成）；当 $Z_t$ =0的时候， $H_t=\widetilde{H_t}$ ,现在隐状态由候选隐状态决定。极端情况下， $Z_t$ =0， $R_t$ =1，就变成了一个最基础的RNN。