循环神经网络RNN

最新推荐文章于 2024-10-09 18:41:46 发布

星星点灯er

最新推荐文章于 2024-10-09 18:41:46 发布

阅读量532

点赞数

分类专栏：机器学习入门文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_37607269/article/details/111389587

版权

机器学习入门专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1、简介

RNN主要用来处理序列数据，在传统的神经网络模型中，是从输入层到隐含层再到输出层，每层内的节点之间无连接，循环神经网络中一个当前神经元的输出与前面的输出也有关，网络会对前面的信息进行记忆并应用于当前神经元的计算中，隐藏层之间的节点是有连接的，并且隐藏层的输入不仅包含输入层的输出还包含上一时刻隐藏层的输出。理论上，RNN可以对任意长度的序列数据进行处理。

2、模型

一个经典的RNN网络：
在这里插入图片描述
RNN采用参数共享的机制，在时间维度上共享权重U、V、W一个简单的前向传播过程入下图所示：

$h_t$ 是t时刻隐藏层的值， $y_t$ 是t时刻输出层的值，也就是最终的标签，其中参数 $w_{hh}$ 、 $w_{xh}$ 、 $w_{hy}$ 是需要通过训练学习到的参数。
通常我们这样定义一个RNN模型：
在这里插入图片描述

$x$ 是输入， $h$ 是隐层单元， $o$ 为输出， $L$ 为损失函数， $y$ 为训练集的标签。下标 $t$ 代表 $t$ 时刻的状态，其中需要注意的是，隐藏单元 $h$ 在 $t$ 时刻的表现不仅由此刻的输入决定，还受 $t$ 时刻之前时刻的影响。 $V$ 、 $W$ 、 $U$ 是权值。
$h_t=\phi(Ux_i+Wh_{t-1}+b)$
$\phi$ 是激活函数，一般为 $t a n h$ 函数， $b$ 是偏置。
$t$ 时刻的输出为：（ $c$ 是偏置）
$o_t=Vh_t+c$
模型的输出： $\hat y_t=\sigma(o_t)$ 这里 $\sigma$ 是激活函数，通常RNN用于分类，所以常为softmax函数。

3、训练

RNN使用反向传播梯度下降法更新权重。
在这里插入图片描述
上图的损失函数的定义针对机器翻译，不同的任务，损失函数的设定不同。
由上图可知，对于较大程度的序列，使用RNN的训练过程容易出现梯度消失的现象。因为求到的偏导数本身就是一个比较小的值，较长的链式求导，易导致梯度几乎为0，导致系统误差仍是一个较大的值，最终导致训练失败。对于较长的序列，我们通常使用LSTM模型。