深度理解机器学习16-门控循环单元

最新推荐文章于 2024-04-11 10:42:40 发布

五百五。

最新推荐文章于 2024-04-11 10:42:40 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/clayhell/article/details/129012183

版权

深度学习专栏收录该内容

45 篇文章 2 订阅

订阅专栏

文章探讨了简单RNN的长期依赖问题，介绍了GRU的架构，包括更新门和重置门，以及如何使用GRU进行情绪分析和文本生成。梯度爆炸问题通过梯度裁剪来解决，以保持网络稳定性。

摘要由CSDN通过智能技术生成

·评估简单循环神经网络的缺点。

·描述门控循环单元（Gated Recurrent Unit，GRU）的架构。

·使用GRU进行情绪分析。

·将GRU应用于文本生成。

基本RNN通常由输入层、输出层和几个互连的隐藏层组成。最简单的RNN有一个缺点，那就是它们不能在序列中保持长期关系。为了纠正这个缺陷，需要在简单RNN网络中添加一个特殊的层，称为门控循环单元。

梯度爆炸

梯度不仅会消失，而且还会爆炸。也就是说，前面的层会学习得太快，每次训练迭代之间的值会有很大的偏差，而后面的层的梯度变化不会很快。这是怎么发生的呢？重新审视我们的方程，如果单个项的值远大于1，乘法效应会导致梯度变大，从而造成梯度不稳定，并引起学习问题。

梯度爆炸问题有一个强大的解决方案：裁剪。裁剪仅仅是指阻止梯度的值增长至超过预定义的值。如果该值未被裁剪，由于计算机的典型溢出，你将开始看到网络梯度和权重的NaS（非数字）。设定值上限将有助于避免这一问题。注意，裁剪仅限制梯度的大小，而不限制其方向。

门控循环单元

更新门

在时间步 t，我们首先需要使用以下公式计算更新门 z_t：

其中 x_t 为第 t 个时间步的输入向量，即输入序列 X 的第 t 个分量，它会经过一个线性变换（与权重矩阵 W(z) 相乘）。h_(t-1) 保存的是前一个时间步 t-1 的信息，它同样也会经过一个线性变换。更新门将这两部分信息相加并投入到 Sigmoid 激活函数中，因此将激活结果压缩到 0 到 1 之间。

更新门帮助模型决定到底要将多少过去的信息传递到未来，或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大，因为模型能决定从过去复制所有的信息以减少梯度消失的风险。我们随后会讨论更新门的使用方法，现在只需要记住 z_t 的计算公式就行。

重置门

本质上来说，重置门主要决定了到底有多少过去的信息需要遗忘，我们可以使用以下表达式计算：

使用维度（n_h，n_x）将时间步长t的输入乘以权重W_r。然后，用维度（n_h，n_h）将前一个时间步长的激活函数（h[t-1]）乘以另一组新的权重U_r。注意这里的乘法是矩阵乘法。然后将这两个项相加，并通过sigmoid函数将输出r[t]压缩到[0,1]的范围内。r[t]输出与激活函数具有相同的维度，即（n_h,1）。W_r和U_r参数也需要使用BPTT来学习。