RNN原理及输入输出

最新推荐文章于 2024-06-16 12:59:01 发布

ciaowzq

最新推荐文章于 2024-06-16 12:59:01 发布

阅读量4.6k

点赞数 5

文章标签：深度学习 rnn lstm

本文链接：https://blog.csdn.net/m0_68041978/article/details/127492556

版权

文章目录

循环神经网络

循环神经网络

一、功能简介

循环神经网络（Recurrent Neural Neural Networks, RNN),是一种反馈网络。它可以有效处理序列特性的数据，能够挖掘数据中的时序信息以及语义信息。常用于语言识别、机器翻译、视频分析、生成图像描述的等。RNN主要用于时序类数据的处理，在文档分类、机器翻译、文本情感分析、文本预测等有着重要作用。

二、基本原理

RNN基本网络结构包括一个输入层，一个输出层，一个隐藏层和一个输出层。我们定义 $X_t$ 表示 $t$ 时刻的输入， $o_t$ 表示 $t$ 时刻的输出， $S_t$ 表示 $t$ 时刻的记忆。因为我们当前时刻的输出是由记忆和当前时刻的输入决定的，因此我们可以定义RNN的基本原理，即隐藏层当前时刻的值 $S_t$ 不仅取决于这次的输入 $X_t$ ，也取决于上一时刻隐藏层的值 $S_{t-1}$ 。用公式表示如下。
提供给下一时刻的记忆：
$S_t=\sigma_{1}(U*X_t+W*S_{t-1}+b)$
当前时刻的输出：
$o_t=\sigma_2(V*S_t+c)$
其中 $\sigma()$ 是两个激活函数。 $b$ 和 $c$ 是两组偏置。而在整个模型中，网络中的每一个cell样本都共享了一组权重参数 $(U, V, W)$ 。

三、输入格式

在官方文档中，RNN的输入格式是 $seq\_{len},batch\_size,input\_{size})$ ，即输入时一个三维向量。第一个维度表示序列长度，也就是按时间序列展开每个样本有多少个可见的cell。第三维input_size,表示每个时间步输入的x的特征维数，即输入的特征向量的长度。但是在实际应用中，我们常常会遇到一系列样本中每个序列长度不一致的情况，也就是seq_len不一致的情况。比如我们对电影评论进行情感分析时，不可能每个评论的长度都一样，这种情况下我们常常可以对输入序列进行处理，比如对长序列进行截断，对短序列在其之前进行字符补全，使得样本中序列长度一致。此外，我们也可以使用pad_sequence的方式，也就是使用滑动窗口对样本重新采样，使得batch中的样本等长。

四、输出格式

RNN的输出有三项分别为 $output,h_n,c_n$ 。output是RNN最后一层神经网络的输出，维数为 $seq\_len,batch\_size,proj\_size)$ ，前两项的大小和输入中一致。第三项是最后一层输出通过变换（比如softmax）得到的满足实际项目需要的输出大小。 $h_n$ 是所有层中每个时间步 $o_i$ 的输出，大小为 $num\_layers,batch\_size,proj\_size)$ ，参数大小同上， $num\_layers$ 是隐藏层的个数。 $c_n$ 是所有层中每个时间步 $S_i$ 的输出，参数意义同上。RNN的结构如图所示:
在这里插入图片描述

ciaowzq

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
RNN原理及输入输出

循环神经网络（Recurrent Neural Neural Networks, RNN),是一种反馈网络。它可以有效处理序列特性的数据，能够挖掘数据中的时序信息以及语义信息。常用于语言识别、机器翻译、视频分析、生成图像描述的等。RNN主要用于时序类数据的处理，在文档分类、机器翻译、文本情感分析、文本预测等有着重要作用。
复制链接

扫一扫