循环神经网络：循环神经网络

最新推荐文章于 2023-07-07 22:05:38 发布

zadarmo_

最新推荐文章于 2023-07-07 22:05:38 发布

阅读量284

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/destiny_balabala/article/details/108371601

版权

深度学习专栏收录该内容

21 篇文章 3 订阅

订阅专栏

本节将介绍循环神经⽹络。它并⾮刚性地记忆所有固定⻓度的序列，而是通过隐藏状态来储存之前时间步的信息。⾸先我们回忆⼀下前⾯介绍过的多层感知机，然后描述如何添加隐藏状态来将它变成循环神经⽹络。

一、不含隐藏状态的神经网络

先考虑一个单层的多层感知机：
在这里插入图片描述
复习一遍隐藏层的输出、输出层的输出。
隐藏层的输出：
$H=\phi (XW_{xh}+b_h)$

其中， $W_{xh}$ 表示输入层 $x$ 和隐藏层 $h$ 之间的权重参数， $b_h$ 为隐藏层h的偏差参数。
输出层的输出：
$O=HW_{hq} + b_q$

其中 $q$ 表示输出个数（例如分类问题的类别数）

可以看到，隐藏层 $H$ 的输出只由输入 $x$ 得到。

二、含隐藏状态的循环神经网络

首先说明：隐藏状态是一个变量——隐藏变量的别称。

前面章节说到，语言模型的一段文本，可以看做一段时间序列。这段文本中的每个词为 $w_t$ ，其中 $t$ 称为时间步。（相当于在原有的最基本的神经网络基础上增加了一个维度——时间维度）。下面我们就考虑这种数据存在时间相关性的情况。

假设 $X_t \in R^{n × d}$ 是序列中时间步 $t$ 的小批量输入， $H_t \in R^{n × h}$ 是该时间步的隐藏层变量（ $t$ 表示时间步。 $n$ 表示小批量样本数。 $d$ 表示输入个数，及特征个数）。由于加入了时间的维度，所以每个时间步都会有一个 $H$ ： $H_1,H_2,H_3,...,H_{t-1},H_t,H_{t+1}...,H_T$ 。

循环神经网络的做法与多层感知机的不同之处在于：隐藏层 $H_t$ 的输出由当前时间步的输入 $X_t$ 和上一时间步的隐藏层变量 $H_{t-1}$ 得到。具体公式如下：
$H_t=\phi (X_tW_{xh} + H_{t-1}W_{hh}+b_h)$

与多层感知机的不同，除了输入输出增加了代表当前时间步的下标 $t$ 之外，还增加了一项 $H_{t-1}W_{hh}$ 。（通俗地理解，就是：文本可以看成我们平时说的话。而我们平时说话都是有逻辑的，每个字前前后后都是相关联的，反映到这个公式上，就是隐藏变量在不同时间步上的相关性。）

该公式的图示如下：
在这里插入图片描述

三、其他说明

上述隐藏变量的计算公式表明：当前的隐藏变量捕捉了截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样
所有的时间步都使用相同的模型参数
$X_tW_{xh} + H_{t-1}W_{hh}$ 等价于 $X_t$ 与 $H_{t-t}$ 连接后（concat）的矩阵乘以 $W_{xh}$ 与 $W_{hh}$ 连接后的矩阵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络：循环神经网络

本节将介绍循环神经⽹络。它并⾮刚性地记忆所有固定⻓度的序列，而是通过隐藏状态来储存之前时间步的信息。⾸先我们回忆⼀下前⾯介绍过的多层感知机，然后描述如何添加隐藏状态来将它变成循环神经⽹络。一、不含隐藏状态的神经网络先考虑一个单层的多层感知机：复习一遍隐藏层的输出、输出层的输出。隐藏层的输出：H=ϕ(XWxh+bh)H=\phi (XW_{xh}+b_h)H=ϕ(XWxh+bh)其中，WxhW_{xh}Wxh表示输入层xxx和隐藏层hhh之间的权重参数，bhb_hbh为隐藏层h的偏差.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。