NIPS 24 | PGN：RNN 的新继任者

最新推荐文章于 2025-01-23 10:38:28 发布

大模型产品经理

最新推荐文章于 2025-01-23 10:38:28 发布

阅读量1.1k

点赞数 17

文章标签： rnn 人工智能深度学习 transformer llama 神经网络机器学习

本文链接：https://blog.csdn.net/bagell/article/details/144182892

版权

本文提出了一种名为并行门控网络（Parallel Gated Network，PGN）的新型通用范式，作为循环神经网络（Recurrent Neural Network，RNN）的继任者，并基于PGN设计了一种新型时间建模框架——时间并行门控网络（Temporal Parallel Gated Network，TPGN），用于长程时间序列预测任务。

一、引言

长程时间序列预测在多个领域具有重要应用价值，例如能源、气候和交通等。与短程预测相比，长程预测能够提供更全面的信息，帮助个人和组织更准确地评估未来变化并做出明智决策。

近年来，基于深度学习的方法在时间序列预测领域取得了显著进展，主要分为以下四类范式：

Transformer: 基于自注意力机制，能够捕捉长距离依赖关系，但存在计算复杂度高、难以捕捉语义信息等问题。
卷积神经网络（CNN）: 具有高效的并行计算能力，但受限于感受野，难以有效捕捉长程依赖关系。
多层感知器（MLP）: 结构简单，计算效率高，但在提取深层语义信息方面存在局限。
RNN: 能够捕捉序列中的时间依赖关系，但存在以下主要问题：

循环结构导致信息传播路径过长，难以有效捕捉长程依赖关系。
存在梯度爆炸/消失问题，训练难度大。
顺序计算方式导致计算效率低下，即使理论复杂度与序列长度L线性相关，但实际运行速度甚至可能比Transformer更慢。

针对RNN的局限性，本文提出了一种新的通用范式——PGN。

二、相关工作

2.1 时间维度建模

现有方法主要分为以下四类：

RNN:

传统RNN存在信息传播路径过长、难以捕捉长程依赖关系等问题。
DilatedRNN 通过引入多尺度扩张机制缩短信息传播路径，但路径长度仍与序列长度L线性相关。
SlicedRNN 通过将序列分割为多个切片进行并行计算提高效率，但信息传播路径长度不变。
WITRAN 将序列重塑为二维，同时在两个方向进行信息传播，将信息传播路径缩短到O(VL)，但仍相对较长。

CNN:

具有高效的并行计算能力，但受限于感受野，需要堆叠多层模块才能捕捉全局信息，导致信息传播路径长度为O(G)，G与序列长度L超线性相关。
TimesNet 通过二维建模方法将输入长度在两个方向上都设为O(VL)，信息传播路径长度为O(VG)。
MICN 和 ModernTCN 通过扩大卷积核的感受野有效缩短信息传播路径，但由于采用一维建模方法，在捕捉周期性特征方面可能不如 TimesNet。

MLP:

DLinear 和 NLinear 通过序列分解和重新归一化方法优化原始线性模型，实现基于历史输入的直接未来预测，但提取深层语义信息的能力有限。
TimeMixer 采用两个专用模块从多个尺度分析预测时间序列数据，能够有效捕捉周期性，但计算成本和训练难度较高。
FITS 将时间序列预测视为插值，将时间序列转换为频域进行处理，但可能忽略序列中存在的显式局部变化。

Transformer:

基于逐点注意力机制的方法，如 Vanilla-Transformer、Informer 和 FEDformer，信息传播路径长度为O(1)，但难以捕捉时间步长的语义信息。
Autoformer 通过序列分解在一定程度上捕捉时间序列的周期性，但不如 TimesNet 直接，且复杂度仍然较高，为O(L log L)。
Pyraformer 通过金字塔结构的特殊设计有效捕捉序列的周期性，但受限于卷积核初始化金字塔结构节点，复杂度为O(L)。
PatchTST 通过补丁捕捉局部语义信息，将复杂度降低到O((L/S)2)，但仍无法直接捕捉序列的周期性。
iTransformer 主要关注变量之间的关系，包括时间序列变量与外部时间特征之间的关系，在时间维度上采用直接基于补丁的方法，难以有效提取周期性模式和其他局部特征。
PDF 也将原始一维序列转换为二维表示进行建模，利用CNN处理短期信息，难以充分捕捉序列中存在的所有周期性特征。

2.2 变量维度建模

现有方法主要分为以下四类：

变量融合处理：由于多变量的异质性，会引入过多噪声，导致性能不如变量独立处理。
变量独立处理：无法捕捉变量之间的关系。
基于Transformer的建模：例如 Crossformer 和 iTransformer，利用注意力机制和图神经网络（GNN）在变量维度上建模，成功捕捉变量之间的相关性和差异性。
基于GNN的建模：例如 CrossGNN 和 FourierGNN。

三、方法

3.1 并行门控网络（PGN）

PGN旨在解决RNN信息传播路径过长的问题。

结构与原理:

历史信息提取（HIE）层: 采用线性层并行聚合整个历史信息，每个时间步的计算独立于其他时间步，支持并行处理。
门控机制: 继承RNN信息选择和融合的优势，使用单个门控同时控制序列中所有时间步的信息选择和融合，减少计算开销。

计算过程:

给定长度为L的输入信号，PGN的计算过程如下：

其中:

将处理后的信号沿长度维度填充零向量。
为线性层，聚合所有历史信息。
和为权重矩阵和偏置向量。
和为中间变量，为元素积，和为激活函数。
为PGN的输出。

优势:

将信息传播路径缩短到O(1)，更好地捕捉长程依赖关系。
并行计算能力，显著提高实际运行速度。

3.2 时间并行门控网络（TPGN）

TPGN旨在解决PGN在时间序列预测任务中无法有效提取周期性语义信息的问题。

输入准备模块:

将一维序列重塑为二维表示，其中行表示短期变化，列表示长期周期性模式。
引入归一化层，减少数据波动对模型训练的影响。

TPGN:

长期信息提取分支:
利用PGN沿着R维度进行建模，保留每个时间步的长期重复历史信息。
通过线性层聚合所有行的信息，得到输出。
短期信息提取分支:
利用线性层将短期信息聚合到补丁中。
再利用另一个线性层将补丁融合为序列的全局信息。
将重复P次，得到与长期信息提取分支输出维度相同的表示。

预测模块:

将两个分支的输出连接起来，包含局部长期周期性特征和全局短期信息。
通过线性层预测未来不同位置的值。

复杂度分析:

PGN: 复杂度为O(L)，与RNN相同，但实际效率更高。
TPGN: 复杂度为O(VL)，其中V表示变量数量。

四、实验

4.1 实验结果

数据集: ECL、Traffic、ETTh1、ETTh2 和 Weather。

基线方法: WITRAN、ModernTCN、TimesNet、MICN、FITS、TimeMixer、DLinear、iTransformer、PDF、Basisformer、PatchTST 和 FiLM。

实验结果:

TPGN在所有任务中均取得了最先进的性能，平均MSE提高了12.35%，MAE提高了7.25%。
TPGN在 ECL 数据集上的MSE平均降低了17.31%，Traffic 数据集降低了9.38%，ETTh1 数据集降低了3.79%，ETTh2 数据集降低了12.26%，Weather 数据集降低了19.09%。
TPGN在预测不同长度的任务时，性能下降趋势较慢，表现出更强的长程预测能力。