时间序列预测系列之循环神经网络

最新推荐文章于 2024-07-29 08:53:35 发布

学海一叶

最新推荐文章于 2024-07-29 08:53:35 发布

阅读量883

点赞数 1

分类专栏：时序预测文章标签： rnn 人工智能深度学习算法神经网络

本文链接：https://blog.csdn.net/long11350/article/details/132853477

版权

时序预测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1.前言
2.RNN基础组件

1.前言

循环神经网络（Recurrent Neural Network，简称RNN）是一类在处理序列数据和时间序列数据时非常有用的神经网络架构。RNN的主要特点是它们具有循环连接，允许信息从一个时间步传递到下一个时间步，从而捕获时间依赖性和序列关系。正是由于RNN这种可以处理上下文依赖的特性，在机器翻译、文本生成、情感分析、语音识别、时间序列预测、图像描述生成、和游戏AI等各领域得到广泛应用

注：虽然RNN在许多序列建模任务中表现出色，但它们也有一些局限性，包括计算资源要求较高和难以捕获非常长的依赖性。因此，在某些情况下，其他神经网络架构，如卷积神经网络（CNN）和注意力机制（Attention Mechanism），可能更适合处理序列数据

循环神经网络包括RNN、LSTM、GRU、FC LSTM、ConvLSTM等基础组件

2.RNN基础组件

1.RNN

RNN在全连接网络基础上加入了时序关联的结构：即增加 $s_t$ 来表示隐藏层在不同时刻的状态，其中每个时刻的隐藏状态 $s_t$ 由上一层隐藏状态 $s_{t-1}$ 和权重 $W$ ，输入 $x_t$ 和权重 $U$ 以及偏置 $b$ 决定，每个时刻输出则由计算得到的当前层隐藏状态 $s_t$ 和输出权重 $V$ 来决定，其中每个时刻的 $W U V$ 权重矩阵都是共享的。

优点：

1.RNN很适合处理序列数据，因为考虑了之前的信息。
2.可以和CNN一起使用得到更好的效果。

缺点：

1.由于在训练过程中的 $W U V$ 权值共享，容易出现梯度爆炸或者梯度消失的情况。
2.RNN相较于其他CNN和全连接需要更多的显存空间，更难训练。
3.如果使用tanh、relu作为激活函数，没办法处理太长的序列。

在这里插入图片描述

2.LSTM

RNN容易出现梯度消失和爆炸，并且随着时间序列或距离增加，RNN会变得无法连接相关信息，即出现记忆问题，通常超过十步就不行了，为了解决这些问题，研究者在普通RNN的基础上提出了LSTM（Long Short-term Memory，长短期记忆网络），LSTM在RNN基础上新增了记忆单元 $c_t$ ，记忆单元可以分解为输入门 $i_t$ 、遗忘门 $f_t$ 、输出门 $o_t$ ，这些门通过权重和激活函数来控制信息的流动：

输入门 $i_t$ 用于控制当前输入 $x_t$ 有多少保存到 $c_t$
遗忘门 $f_t$ 用于控制信息的保留和遗忘
输出门 $o_t$ 用于控制记忆单元 $c_t$ 对当前隐藏状态 $s_t$ 的影响

它们都由各自的权重和当前时刻输入 $x_t$ 和上一时刻隐藏状态 $s_{t-1}$ 决定，得到三个门后，就可以得出记忆单元 $c_t$ 和隐藏状态 $s_t$

记忆单元 $c_t$ 由上一时刻记忆单元 $c_{t-1}$ 的部分信息和输入门 $i_t$ 的部分信息组成，其中 $c_{t-1}$ 部分信息由遗忘门 $f_t$ 控制
隐藏状态 $s_t$ 由输出门 $o_t$ 和记忆单元 $c_t$ 决定

LSTM因计算量稍大，不能处理空间信息等缺点，后又引申出多种变体，如GRU、FC-LSTM、 ConvLSTM
在这里插入图片描述

3.GRU

为了解决LSTM计算量较大的问题，出现了另一个广泛流行RNN变体是GRU，GRU没有窥视孔连接和输出激活函数，也没有线性自连接的记忆单元，而是直接线性累积在隐藏状态 $s_t$ 上。GRU包含更新门 $u_t$ 和重置门 $r_t$ ：

更新门 $u_t$ 由LSTM中的输入门和遗忘门耦合而成，用于控制前一时刻的记忆状态（或隐藏状态）是否被传递到当前时刻，当 $u t = 0$ ，无论序列有多长，都可以保持最初时间步中的信息
重置门 $r_t$ 控制如何将当前的输入与前一时刻的记忆状态结合起来
相比于LSTM，GRU通常具有更快的训练速度，并且在某些任务上和LSTM相当，但是LSTM在处理长序列和学习长期依赖关系方面表现可能更加出色。

4.FC-LSTM

全连接LSTM，又称带窥视孔连接LSTM，相比于传统LSTM增加了三个门控单元和记忆单元的连接，叫全连接的原因是输入到三个门和记忆单元间是通过全连接层，即矩阵乘法来实现的，由于增加了门和记忆单元之间的连接，使得处理速度更慢。

在这里插入图片描述

5.ConvLSTM

和FC-LSTM主要的不同点在于ConvLSTM将输入到门之间的全连接层使用卷积计算来代替，也就是矩阵乘法变成了卷积计算，使得输入由3维变为了5维，即
(batchsize, timestamps, features) -> (batchsize, timestamps, channel size, row, column)
在这里插入图片描述