NIPS 24 | PGN:RNN 的新继任者

本文提出了一种名为并行门控网络(Parallel Gated Network,PGN)的新型通用范式,作为循环神经网络(Recurrent Neural Network,RNN)的继任者,并基于PGN设计了一种新型时间建模框架——时间并行门控网络(Temporal Parallel Gated Network,TPGN),用于长程时间序列预测任务。

一、引言

长程时间序列预测在多个领域具有重要应用价值,例如能源、气候和交通等。与短程预测相比,长程预测能够提供更全面的信息,帮助个人和组织更准确地评估未来变化并做出明智决策。

近年来,基于深度学习的方法在时间序列预测领域取得了显著进展,主要分为以下四类范式:

  1. Transformer: 基于自注意力机制,能够捕捉长距离依赖关系,但存在计算复杂度高、难以捕捉语义信息等问题。

  2. 卷积神经网络(CNN): 具有高效的并行计算能力,但受限于感受野,难以有效捕捉长程依赖关系。

  3. 多层感知器(MLP): 结构简单,计算效率高,但在提取深层语义信息方面存在局限。

  4. RNN: 能够捕捉序列中的时间依赖关系,但存在以下主要问题:

  • 循环结构导致信息传播路径过长,难以有效捕捉长程依赖关系。

  • 存在梯度爆炸/消失问题,训练难度大。

  • 顺序计算方式导致计算效率低下,即使理论复杂度与序列长度L线性相关,但实际运行速度甚至可能比Transformer更慢。

针对RNN的局限性,本文提出了一种新的通用范式——PGN。

二、相关工作

2.1 时间维度建模

现有方法主要分为以下四类:

  1. RNN:
  • 传统RNN存在信息传播路径过长、难以捕捉长程依赖关系等问题。

  • DilatedRNN 通过引入多尺度扩张机制缩短信息传播路径,但路径长度仍与序列长度L线性相关。

  • SlicedRNN 通过将序列分割为多个切片进行并行计算提高效率,但信息传播路径长度不变。

  • WITRAN 将序列重塑为二维,同时在两个方向进行信息传播,将信息传播路径缩短到O(VL),但仍相对较长。

  1. CNN:
  • 具有高效的并行计算能力,但受限于感受野,需要堆叠多层模块才能捕捉全局信息,导致信息传播路径长度为O(G),G与序列长度L超线性相关。

  • TimesNet 通过二维建模方法将输入长度在两个方向上都设为O(VL),信息传播路径长度为O(VG)。

  • MICN 和 ModernTCN 通过扩大卷积核的感受野有效缩短信息传播路径,但由于采用一维建模方法,在捕捉周期性特征方面可能不如 TimesNet。

  1. MLP:
  • DLinear 和 NLinear 通过序列分解和重新归一化方法优化原始线性模型,实现基于历史输入的直接未来预测,但提取深层语义信息的能力有限。

  • TimeMixer 采用两个专用模块从多个尺度分析预测时间序列数据,能够有效捕捉周期性,但计算成本和训练难度较高。

  • FITS 将时间序列预测视为插值,将时间序列转换为频域进行处理,但可能忽略序列中存在的显式局部变化。

  1. Transformer:
  • 基于逐点注意力机制的方法,如 Vanilla-Transformer、Informer 和 FEDformer,信息传播路径长度为O(1),但难以捕捉时间步长的语义信息。

  • Autoformer 通过序列分解在一定程度上捕捉时间序列的周期性,但不如 TimesNet 直接,且复杂度仍然较高,为O(L log L)。

  • Pyraformer 通过金字塔结构的特殊设计有效捕捉序列的周期性,但受限于卷积核初始化金字塔结构节点,复杂度为O(L)。

  • PatchTST 通过补丁捕捉局部语义信息,将复杂度降低到O((L/S)2),但仍无法直接捕捉序列的周期性。

  • iTransformer 主要关注变量之间的关系,包括时间序列变量与外部时间特征之间的关系,在时间维度上采用直接基于补丁的方法,难以有效提取周期性模式和其他局部特征。

  • PDF 也将原始一维序列转换为二维表示进行建模,利用CNN处理短期信息,难以充分捕捉序列中存在的所有周期性特征。

2.2 变量维度建模

现有方法主要分为以下四类:

  1. 变量融合处理: 由于多变量的异质性,会引入过多噪声,导致性能不如变量独立处理。

  2. 变量独立处理: 无法捕捉变量之间的关系。

  3. 基于Transformer的建模: 例如 Crossformer 和 iTransformer,利用注意力机制和图神经网络(GNN)在变量维度上建模,成功捕捉变量之间的相关性和差异性。

  4. 基于GNN的建模: 例如 CrossGNN 和 FourierGNN。

三、方法

3.1 并行门控网络(PGN)

PGN旨在解决RNN信息传播路径过长的问题。

结构与原理:

  • 历史信息提取(HIE)层: 采用线性层并行聚合整个历史信息,每个时间步的计算独立于其他时间步,支持并行处理。

  • 门控机制: 继承RNN信息选择和融合的优势,使用单个门控同时控制序列中所有时间步的信息选择和融合,减少计算开销。

计算过程:

给定长度为L的输入信号 ,PGN的计算过程如下:

其中:

  • 将处理后的信号沿长度维度填充零向量。

  • 为线性层,聚合所有历史信息。

  • 和 为权重矩阵和偏置向量。

  • 和 为中间变量, 为元素积, 和 为激活函数。

  • 为PGN的输出。

优势:

  • 将信息传播路径缩短到O(1),更好地捕捉长程依赖关系。

  • 并行计算能力,显著提高实际运行速度。

3.2 时间并行门控网络(TPGN)

TPGN旨在解决PGN在时间序列预测任务中无法有效提取周期性语义信息的问题。

输入准备模块:

  • 将一维序列重塑为二维表示,其中行表示短期变化,列表示长期周期性模式。

  • 引入归一化层,减少数据波动对模型训练的影响。

TPGN:

  • 长期信息提取分支:

  • 利用PGN沿着R维度进行建模,保留每个时间步的长期重复历史信息。

  • 通过线性层聚合所有行的信息,得到输出 。

  • 短期信息提取分支:

  • 利用线性层将短期信息聚合到补丁中。

  • 再利用另一个线性层将补丁融合为序列的全局信息 。

  • 将 重复P次,得到与长期信息提取分支输出维度相同的表示 。

预测模块:

  • 将两个分支的输出连接起来,包含局部长期周期性特征和全局短期信息。

  • 通过线性层预测未来不同位置的值。

复杂度分析:

  • PGN: 复杂度为O(L),与RNN相同,但实际效率更高。

  • TPGN: 复杂度为O(VL),其中V表示变量数量。

四、实验

4.1 实验结果

数据集: ECL、Traffic、ETTh1、ETTh2 和 Weather。

基线方法: WITRAN、ModernTCN、TimesNet、MICN、FITS、TimeMixer、DLinear、iTransformer、PDF、Basisformer、PatchTST 和 FiLM。

实验结果:

  • TPGN在所有任务中均取得了最先进的性能,平均MSE提高了12.35%,MAE提高了7.25%。

  • TPGN在 ECL 数据集上的MSE平均降低了17.31%,Traffic 数据集降低了9.38%,ETTh1 数据集降低了3.79%,ETTh2 数据集降低了12.26%,Weather 数据集降低了19.09%。

  • TPGN在预测不同长度的任务时,性能下降趋势较慢,表现出更强的长程预测能力。

4.2 消融研究
  • TPGN的两个分支分别捕捉长期和短期信息,并保留各自的特征。

  • 长期信息提取分支对模型性能的影响更大,尤其是在周期性较强的数据上。

  • 与具有多个门控的 GRU 和 LSTM 相比,PGN 仅使用一个门控,但性能更优,证明了 PGN 作为 RNN 继任者的能力。

  • TPGN框架具有很强的通用性和性能,即使将 PGN 替换为 GRU、LSTM 或 MLP,在某些任务中也能超过之前的 SOTA 方法。

4.3 执行效率

为了全面评估所提出方法的效率,本文进行了两组比较实验:

第一组实验: 固定输入长度为168,输出长度分别为168/336/720/1440,研究预测长度对模型实际运行效率的影响。

第二组实验: 固定输出长度为1440,输入长度分别为168/336/720/1440,研究历史输入序列长度对模型实际运行时间的影响。

效率分析考虑了时间和内存两个方面。实验选择了每种范式中具有代表性的方法作为比较方法,固定批量大小为32,模型维度大小为128,并使用单层模型进行测试。

实验结果表明:

  • 虽然 TPGN 的时间和内存开销不是最低的,但在时间和空间效率方面均表现出较高的效率。

  • 需要注意的是,TPGN 是一个单层模型,而其他大多数模型需要引入更深层,这不可避免地会导致更高的开销。

  • 这进一步证明了本文方法不仅取得了最先进的性能,而且在效率方面也令人满意。

五、结论

本文提出了一种新的通用范式——并行门控网络(PGN)。PGN 具有 O(1) 信息传播路径和并行计算能力,在保持与 RNN 相同的理论复杂度 (O(L)) 的同时,实现了更快的运行速度。

为了增强 PGN 在长程时间序列预测任务中的应用,本文引入了一种新的时间建模框架——时间并行门控网络(TPGN),其复杂度为 O(VL)。TPGN 通过两个分支分别建模长期和短期信息,有效地捕捉周期性信息和局部-全局语义信息,同时保留各自的特征。

在五个基准数据集上的实验结果表明,基于 PGN 的框架 TPGN 取得了最先进的性能和高效率。这些发现进一步证实了 PGN 作为 RNN 在长程时间序列预测任务中的继任者的有效性。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值