RNN&LSTM 简介

最新推荐文章于 2024-06-17 20:27:44 发布

man_world

最新推荐文章于 2024-06-17 20:27:44 发布

阅读量1.6w

点赞数 14

分类专栏： # 深度学习

本文链接：https://blog.csdn.net/mzpmzk/article/details/80548927

版权

深度学习专栏收录该内容

19 篇文章 8 订阅

订阅专栏

一、前馈神经网络的缺点

每次网络的输出只依赖当前的输入，没有考虑不同时刻输入的相互影响
输入和输出的维度都是固定的，没有考虑到序列结构数据长度的不固定性

二、循环神经网络（RNN）

1、RNN 介绍

循环神经网络（Recurrent Neural Network，RNN）是一类专门用于处理时序数据样本的神经网络，它的每一层不仅输出给下一层，同时还输出一个隐状态，给当前层在处理下一个样本时使用。就像卷积神经网络可以很容易地扩展到具有很大宽度和高度的图像，而且一些卷积神经网络还可以处理不同尺寸的图像，循环神经网络可以扩展到更长的序列数据，而且大多数的循环神经网络可以处理序列长度不同的数据（for 循环，变量长度可变）。它可以看作是带自循环反馈的全连接神经网络。其网络结构如下图所示。
其中 $x$ 是输入序列（长度为 $T$ ）， $h$ 是隐藏层序列， $o$ 是输出序列， $L$ 是总体损失， $y$ 是目标标签序列， $U$ 是输入层到隐藏层的参数矩阵， $W$ 是隐藏层到隐藏层的自循环参数矩阵， $V$ 是隐藏层到输出层的参数矩阵。值得注意的是：图中输入节点数（不止一个）、隐藏节点数、输出节点数都是用一个小圆圈表示的，它们之前是全连接的，且在隐藏层之间加了一个自循环反馈(通过权重共享)，这也是它能够处理不同序列长度数据的原因。其具体计算流程如下：
- 前向传播：公式如下所示，其中，输入层到隐藏层使用双曲正切激活函数(tanh)，隐藏层到输出层使用 softmax 将输出映射为 (0, 1) 的概率分布。按时间序列递减的方式反复把第一个公式带入到它本身中，我们将会看到当前时刻隐藏层的输出值不仅受当前时刻输入 $x^{(t)}$ 的影响，还受到过去所有时刻输入 $(x^{(t-1)},x^{(t-2)}, \cdots, x^{(2)},x^{(1)})$ 的影响，如此一来，隐藏层的输出值（h）就可以看作是网络的记忆，这使得它非常适合处理前后有依赖关系数据样本。
  
  $h (t) = t a n h (W h (t - 1) + U x (t) + b h)$ $h^{(t)} = tanh(Wh^{(t-1)} + Ux^{(t)} + b_h)$
o(t)=softmax(Vh(t)+bo)
- 损失函数：公式如下所示，一般可使用交叉熵来计算某个时刻 $t$ 在所有 $m$ 个样本上的损失，整体的损失值则为所有时刻损失之和
  $L (t) = - 1 m \sum i = 1 m y (t) i l o g (o (t) i)$ $L^{(t)} = -\frac{1}{m}{}\sum_{i=1}^{m}y_{i}^{(t)}log(o_{i}^{(t)})$
L=∑t=1TL(t)
- 循环神经网络的一个重要特性是：在不同时刻，模型的参数是共享的，这使得我们可以在时间上共享不同位置的统计强度。当序列数据中的某些部分会在多个位置出现时，这种参数共享机制就显得尤为重要了。例如，在两个车牌“皖F.WY656” 和 “沪A.F6661” 中 “F”分别出现在第 $2$ 位和第 $3$ 位，我们希望模型通过参数共享机制可以学习到字母 “F” 的抽象特征，从而无论这个字母出现在什么位置，模型都能够识别它。其参数可以通过时序反向传播算法（Back-Propagation Through Time，BPTT）来学习，每一次参数更新用到的梯度都是所有时刻梯度之和。
- 2、RNN 的结构类型
  - 序列分类（N VS 1）
    - 输入是一个序列，输出是一个单独的值而不是序列，这种结构通常用来处理序列分类问题。如输入一段文字判别它所属的类别，输入一个句子判断其情感倾向，输入一段视频并判断它的类别等等。
    - 可以对最后一个 h 进行输出变换，或对所有的 h 进行平均后再进行输出变换
    - 注意：初始状态神经元的数量必定和隐层神经元的数量一致
  - RNN (1 VS N)
    - 这种1 VS N 的结构可以处理的问题有：
      - 从图像生成文字（image caption），此时输入的X就是图像的特征，而输出的y序列就是一段句子
      - 从类别生成语音或音乐等
    - 只在序列开始进行输入计算，其它 time step 输入为 0
    - 把输入信息X作为每个阶段的输入
  - 同步的序列到序列的模式（N VS N）
    - 最经典RNN结构要求输入和输出序列必须要是等长的。
    - 由于这个限制的存在，经典RNN的适用范围比较小，但也有一些问题适合用经典的RNN结构建模，如：计算视频中每一帧的分类标签。因为要对每一帧进行计算，因此输入和输出序列等长。
  - 异步的序列到序列的模式（N VS M）
    - 这种 N vs M 的结构又叫 Encoder-Decoder 模型，也可称之为 Seq2Seq 模型。原始的 N vs N RNN 要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。Encoder-Decoder 模型可以有效的建模输入序列和输出序列不等长的问题，具体步骤如下：
      - 首先，用一个 Encoder（RNN）将输入的序列编码为一个上下文向量 c。得到 c 有多种方式，最简单的方法就是把 Encoder 的最后一个隐状态赋值给 c，还可以对最后的隐状态做一个变换得到 c，也可以对所有的隐状态做变换 得到 c。
      - 然后，用一个 Decoder（另一个RNN）对 c 进行解码，将其变成输出序列。可以将 c 当做之前的初始状态 h0 输入到Decoder，也可以将 c 当做每一步的输入
    - 由于这种 Encoder-Decoder 结构不限制输入和输出的序列长度，因此应用的范围非常广泛，比如：
      - 机器翻译：Encoder-Decoder的最经典应用，事实上这一结构就是在机器翻译领域最先提出的
      - 文本摘要：输入是一段文本序列，输出是这段文本序列的摘要序列。
      - 阅读理解：将输入的文章和问题分别编码，再对其进行解码得到问题的答案。
      - 语音识别：输入是语音信号序列，输出是文字序列。
  3、RNN 分类
  - 单隐层 RNN
    - 输入、隐藏层以及输出层的神经元数量均为 2
    - 储存的隐状态：代表了当前及历史的信息
  - 多隐层 RNN
    - 单隐层 RNN 可以看作是既“深”又“浅”的网络。一方面来说，如果我们把循环网络按时间展开，长时间间隔的状态之间的路径很长，循环网络可以看作是一个非常深的网络了。从另一方面来说，如果只看同一时刻网络输入到输出（只包含一个隐层），那么，这个网络是非常浅的。
    - 增加循环神经网络的深度：主要是增加隐藏状态到输出 以及输入到隐藏状态 之间的路径的深度。
    - 我们可以在隐藏层堆叠多个RNN，加上输入层和输出层就构成了一个完整的 model，只不过隐藏层的 RNN 均可以在 Time 维度(单个序列的长度)上传递，输入层中单个序列中的每一个按照时间的顺序输入，输出层预测按照时间的顺序依次输出。
  - 双向 RNN
    - 在有些任务中，一个时刻的输出不但和序列前面的信息有关，也和序列后面的信息有关。比如给定一个句子，其中一个词的词性由它的上下文决定，即：包含左右两边的信息。因此，在这些任务中，我们可以增加一个按照时间的逆序来传递信息的网络层，来增强网络的能力。
    - 双向循环神经网络（bidirectional recurrent neural network，Bi-RNN）由两层循环神经网络组成，它们的输入相同，只是信息传递的方向不同。
  三、长短时记忆网络（LSTM）
  
  1、LSTM 简介及主要思想
  - 简介
    - 时序反向传播算法按照时间的逆序将错误信息一步步地往前传递。当每个时序训练数据的长度 $T$ 较大或者时刻 $t$ 较小时，损失函数关于 $t$ 时刻隐藏层变量的梯度比较容易出现消失或爆炸的问题（也称长期依赖问题）。具体原理如下：可参考复旦大学邱锡鹏的讲义
  - 主要思想
    - 梯度爆炸的问题一般可以通过梯度裁剪来解决，而梯度消失问题则要复杂的多，人们进行了很多尝试，其中一个比较有效的版本是长短期记忆神经网络（Long Short-Term Memory，LSTM）。LSTM 的主要思想是：门控单元以及线性连接的引入
      - 门控单元：有选择性的保存和输出历史信息
      - 线性连接：如下图中的水平线可以看作是 LSTM 的“主干道”，通过加法， $C_{t-1}$ 可以无障碍的在这条主干道上传递，因此 LSTM 可以更好地捕捉时序数据中间隔较大的依赖关系。
    2、LSTM 的工作原理
    - LSTM 时刻 $t$ 的网络结构如下图所示。其中 $x_t$ 是 $t$ 时刻的输入， $h_{t-1}$ 是 $t-1$ 时刻隐藏层的输出， $c_{t-1}$ 是 $t-1$ 时刻历史信息的输出； $f_{t}$ 、 $i_{t}$ 和 $o_{t}$ 分别为 $t$ 时刻的遗忘门、输入门和输出门； $\tilde{c_{t}}$ 是 $t$ 时刻通过变换后的新信息， ${c_{t}}$ 是在 $t$ 时刻更新过后的历史信息， $h_{t}$ 是 $t$ 时刻隐藏层的输出。其具体计算流程如下：
    - 首先，我们将 $t$ 时刻的输入 $x_t$ 和隐藏层的输出 $h_{t-1}$ 复制四份，并为它们随机初始化不同的权重，计算出遗忘门、输入门和输出门以及通过变换后的新信息。它们的计算公式如下所示，其中 $W$ 是输入层到隐藏层的参数矩阵， $U$ 是隐藏层到隐藏层的自循环参数矩阵， $b$ 为偏置参数矩阵， $\sigma$ 为 sigmoid 函数，使得三个门的输出保持 $0 \sim 1$ 之间。
    $f t = σ (W f x t + U f h t - 1 + b f)$ $f_{t} = \sigma(W_{f}x_{t} + U_{f}h_{t-1} + b_{f})$
    
    $i t = σ (W i x t + U i h t - 1 + b i)$ $i_{t} = \sigma(W_{i}x_{t} + U_{i}h_{t-1} + b_{i})$
    
    $o t = σ (W o x t + U o h t - 1 + b o)$ $o_{t} = \sigma(W_{o}x_{t} + U_{o}h_{t-1} + b_{o})$
    
    $c t ~ = t a n h (W c x t + U c h t - 1 + b c)$ $\tilde{c_{t}} = tanh(W_{c}x_{t} + U_{c}h_{t-1} + b_{c})$
    
    其次，我们使用遗忘门 $f_{t}$ 和输入门 $i_{t}$ 来控制忘记多少历史信息 $c_{t-1}$ 和保存多少新信息 $\tilde{c_{t}}$ ，从而更新内部记忆细胞状态 $c_{t}$ ，其计算公式如下所示。
    
    $c t = f t ⊙ c t - 1 + i t ⊙ c t ~$ $c_{t} = f_{t}\odot c_{t-1} + i_{t} \odot \tilde{c_{t}}$
    最后，我们使用输出门 $o_{t}$ 来控制输出多少内部记忆单元 $c_{t}$ 的信息到隐状态 $h_{t}$ ，其计算公式如下所示。
    
    $h t = o t ⊙ t a n h (c t)$ $h_{t} = o_{t} \odot tanh(c_{t})$
    
    3、LSTM 的变体
    
    peephole 连接：三个门不但依赖于输入 $x_t$ 和上一时刻的隐状态 $h_{t−1}$ ，也依赖于上一个时刻的内部记忆细胞状态 $c_{t−1}$ 。
    
    耦合输入门和遗忘门：
    
    LSTM网络中的输入门和遗忘门有些互补关系，因此同时用两个门比较冗余
    We only forget when we’re going to input something in its place. We only input new values to the state when we forget something older.
    
    GRU（Gated Recurrent Unit）:
    
    输入门与和遗忘门合并成一个门：更新门 $z_t$
    引入重置门 $r_t$ （不能算更改，只能说重新定义其使用的地方），用来控制输入候选状态 $\widetilde h_t$ 的计算是否依赖上一时刻的状态 $h_{t−1}$
    去除 LSTM 中的内部细胞记忆单元 $c_t$ ，直接在当前状态 $h_t$ 和历史状态 $h_{t−1}$ 之间引入线性依赖关系
    
    四、参考资料
    
    1、完全图解RNN、RNN变体、Seq2Seq、Attention机制
     2、Understanding LSTM Networks
    3、Hongyi Li：Courses/ML_2016/Lecture/RNN
    4、复旦大学邱锡鹏的 RNN 讲义
     5、零基础入门深度学习(5) - 循环神经网络
     6、零基础入门深度学习(6) - 长短时记忆网络(LSTM)

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

man_world

关注关注

14
点赞

踩

74

收藏

觉得还不错? 一键收藏

4
评论

RNN&LSTM 简介

一、前馈神经网络的缺点每次网络的输出只依赖当前的输入，没有考虑不同时刻输入的相互影响输入和输出的维度都是固定的，没有考虑到序列结构数据长度的不固定性二、循环神经网络（RNN）1、RNN 介绍循环神经网络（Recurrent Neural Network，RNN）是一类专门用于处理时序数据样本的神经网络，它的每一层不仅输出给下一层，同时还输出一个隐状态，给当前层在处理下一...
复制链接

扫一扫

专栏目录

深度学习——RNN与LSTM简介

johnny_love_1968的博客

06-17 3912

深度学习——RNN与LSTM 文章目录深度学习——RNN与LSTM一.序列模型二. RNN1. 为什么用RNN2. RNN简介3. 双向RNN三.LSTM1. 一般RNN存在的问题2. LSTM简介2.1 LSTM单个单元是如何运作的？2.2 LSTM网络3. LSTM为什么能解决梯度问题？一.序列模型所谓的序列模型，是指：按照时间顺序，顺序发生的东西，这些东西，都可以统称为“序列模型”。比如说，我们听的音频，我们说的语言。对应到机器学习当中，可以是：音频生成，机器翻译，自然语言处理等等。这些模型都可以

RNN 之LSTM简介

何必浓墨重彩

10-19 2406

原理在查阅文章的开始只注重了使用CNN的SLAM的文献,后来注意到一些RNN的方法也可以借鉴,因此查阅了一下当前使用RNN做三维重建,SLAM等问题的文章,果然存在一些不错的文章. 所以这里介绍首先介绍一下LSTM的原理和方法. LSTM的出发点就二十为了解决RNN中梯度回传的问题:The vanishing gradient problem for RNNs，也就是后面时间的节点对于前面时间的

4 条评论您还未登录，请先登录后发表或查看评论

定位系列论文阅读-RoNIN（二）-Robust Neural Inertial Navigation in the Wild: Benchmark, Evaluations

qq_43210957的博客

01-13 3582

RoNIN论文阅读

循环神经网络（RNN）与长短时记忆网络（LSTM）

qq_33578950的博客

04-07 4016

循环神经网络（RNN）是一种用于处理序列数据的神经网络，它具有时间递归的结构，可以将前一个时间步的输出作为当前时间步的输入。RNN在自然语言处理、语音识别、时间序列预测等领域有广泛应用。但是，RNN存在梯度消失和梯度爆炸等问题，这使得RNN在处理长序列时效果不佳。长短时记忆网络（LSTM）是一种改进的RNN，它能够解决RNN存在的梯度问题。LSTM引入了门控机制，可以选择性地忘记、保存或读取信息，使其在处理长序列时具有更好的表现。在本文中，我们将深入探讨RNN和LSTM的原理和实际应用，并提供代码示例。

长短期记忆神经网络（LSTM）的回归预测（免费完整源代码）【MATLAB】

最新发布

沅的博客

06-17 848

LSTM（Long Short-Term Memory，长短期记忆网络）是一种特殊类型的递归神经网络（RNN），专门用于处理和预测基于时间序列的数据。与传统RNN相比，LSTM在处理长期依赖问题时具有显著优势。

（通俗易懂）RNN及LSTM

qq_43703185的博客

09-07 5449

原文链接：https://blog.csdn.net/zhaojc1995/article/details/80572098 本文部分参考和摘录了以下文章，在此由衷感谢以下作者的分享！ https://zhuanlan.zhihu.com/p/28054589 https://blo

二、循环神经网络（RNN与LSTM）

Icarus_的学习笔记

12-08 1万+

一、NLP基础 1、常用的神经网络模型在做深度学习或者是人工智能相关的任务中。一般来讲，我们常用的网络模型有三种，第一种卷积神经网络。实际上也是前馈神经网络的一种，它主要包括这个点。地上。那么一般来讲呢，我们是拿这个准地心的网络来做一些跟图像相关的一些事情，比如说我们来做一个图像上市，比如说有一个说给一张老张片。 1.1 卷积神经网络(Convolutional Neural Network,CNN) 是一种前馈神经网络，它包括卷积层(convolutional layer) 和池化层(poo

RNN与LSTM

gaochang21的博客

10-22 1186

为什么有了神经网络还会有RNN，这是因为传统神经网络没有考虑每次输入之间的相关性以及输出之间的相关性，它只对每次输入进行同样的运算并得到结果，没有考虑到连续的输入之间本身存在一种相关性，也就是说每次输入都是独立的。基于每次输入都是独立的假设，每次输出都只与当前输入有关，不能从之前的输入以及输出中得到有效的信息，这在许多情况下不是我们所期望的。RNN就是注意到了这种相关性并利用了这种相关性。RNN在许

深度学习与PyTorch入门实战教程-循环神经网络RNN&LSTM.rar

04-07

本教程旨在帮助初学者理解并掌握深度学习的基础，特别是循环神经网络（RNN）和长短时记忆网络（LSTM），这是处理序列数据，如自然语言和时间序列数据的常用模型。循环神经网络（Recurrent Neural Networks，RNN）...

11.循环神经网络RNN&LSTM(深度学习与PyTorch入门实战教程)

03-01

(深度学习与PyTorch入门实战教程)(深度学习与PyTorch入门实战教程)(深度学习与PyTorch入门实战教程)(深度学习与PyTorch入门实战教程)(深度学习与PyTorch入门实战教程)(深度学习与PyTorch入门实战教程)(深度学习与...

RNN-LSTM卷积神经网络Matlab实现

12-10

**RNN-LSTM卷积神经网络在Matlab中的实现** 循环神经网络（Recurrent Neural Network，简称RNN）是一类广泛应用于序列数据处理的深度学习模型。RNN因其内在的循环结构，能够处理时间序列数据中的长期依赖问题，但在...

RNN-LSTM卷积神经网络Matlab实现.zip

11-04

在深度学习领域，循环神经网络（Recurrent Neural Networks, RNN）和长短期记忆网络（Long Short-Term Memory, LSTM）是处理序列数据的强大工具，特别是在自然语言处理、语音识别和时间序列预测等方面表现出色。...

GRU是什么？RNN、LSTM分别是什么？

热门推荐

I‘m Frank Lee

11-19 2万+

在学习图网络（GN）的过程中，总会遇到不懂的知识，是因为自己的深度学习基础不够好。最早的GNN网络（详情见GNN）可以被用于处理有环图、有向图或无向图。然而，GNN网络本身必须使整个网络达到不动点之后才可以进行计算。针对这一问题，通过将GRU引入到网络结构中，进一步提出了GGNN网络（详情见GGNN）。那么，现在就介绍一下GRU是什么东西。 GRU中的G不是Graph，而是Gate，全称是Gat...

双向循环神经网络(BiRNN)

hxxjxw的博客

09-19 9135

双向RNN，即可以从过去的时间点获取记忆，又可以从未来的时间点获取信息至于网络单元到底是标准的RNN还是GRU或者是LSTM是没有关系的，都可以使用。双向循环神经网络（BRNN）的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络（RNN），而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。下图展示的是一个沿着时间展开的双向循环神经网络。六个独特的权值在每一个时步被重复的利用，六个权值分别对应：输入到向前和向后隐含层...

图文了解RNN与LSTM(详细)

BigData_Mining的博客

02-27 2721

递归神经网络是最先进的顺序数据算法之一，在苹果Siri和Google语音搜索中都使用到的算法。这是因为它是第一个记忆它的输入的算法，由于内部存储器，这使得它非常适合涉及顺序数据的机器学习问题。它是过去几年Deep Learning的惊人成就背后的算法之一。在这篇文章中，你将学习递归神经网络如何工作的基本概念，最大的问题是什么以及如何解决它们。介绍递归神经网络(RNN)是一种功能强大的神经网络类...

RNN与LSTM网络简述

yiyele的博客

06-10 4999

**最近看到一个blog，对LSTM模型介绍的很全面，所以我在这里记录一下。后续会逐渐补充公式推导的部分。 **RNN关键点之一是连接先前的信息到当前的任务中，而LSTM模型是一种特别的RNN。不幸的是RNN对长期依赖信息的学习能力不足，会出现梯度消失等问题。而LSTM网络就是解决长短时的信息依赖问题。 1.简介 LSTM网络全称为 Long Short-Term Memory，长期短期记忆...

人人都能看懂LSTM

东方佑

08-13 502

这是在看了台大李宏毅教授的深度学习视频之后的一点总结和感想。看完介绍的第一部分RNN尤其LSTM的介绍之后，整个人醍醐灌顶。本篇博客就是对视频的一些记录加上了一些个人的思考。0. 从RNN说起循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN就能够很好地解决这类问题。1. 普通RNN先简单介绍一下一般的RNN。其主要形式如下图所示（图片

深度学习《BiRNN》

qq_29367075的博客

10-08 1706

写此博文的时候，已经是欧洲凌晨一点了，今天一口气写了三篇，趁着国庆节的尾巴，赶紧搞一搞，不然等周一上班了就时间少了。一：BiRNN 也就是双向循环网络，之前我们学习的标准RNN，LSTM，GRU都是单向的，即便是我们学过多层的RNN也是单向的，每个Cell只关心当前时刻和之前时刻的输入，其实更复杂的场景下，尤其是语言环境下，我们需要关注语言的上下文，也就是需要根据为了时刻的输出来得到当前的输出，说白了就是不仅仅要向前看，用之前的数据参与当前的任务计算，还要向后看，用未来的输出参与当前任务计算。举个例子

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交