超越Transformer！AAAI 2021最佳论文：高效长序列预测模型

最新推荐文章于 2024-06-06 15:24:40 发布

PaperWeekly

最新推荐文章于 2024-06-06 15:24:40 发布

阅读量2.3k

点赞数 3

文章标签：机器学习人工智能 java 大数据深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/114360670

版权

©PaperWeekly 原创 · 作者｜西南交一枝花

学校｜西南交通大学CCIT实验室博士生

研究方向｜NLP、时空数据挖掘

前言

AAAI 2021 结束有一段时间了，最佳论文奖项也公布了很久。但是，针对 Informer 的解读分享却未见几篇，由于笔者目前在做序列预测方面的工作，故在阅读后整理分享该论文的笔记。如有不同见解，望不吝交流。

Informer 的主要工作是使用 Transfomer 实现长序列预测（Long Sequence Time-Series Forecasting），以下称为 LSTF。针对 Transfomer 在长序列预测中的不足（平方时间复杂度、高内存占用和现有编解码结构的局限性），提出 ProbSparse 注意力机制、自注意力蒸馏技术和生成式解码器等模块解决或缓解上述问题。

论文标题：

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

论文链接：

https://arxiv.org/abs/2012.07436

源码链接：

https://github.com/zhouhaoyi/ETDataset

研究动机

笔者将本文的研究动机归为以下几点：

1. 首先，LSTF 任务具有重要研究意义，对政策计划和投资避险等多种需要长时预测的任务至关重要；

2. 目前现有方法多专注于短期预测，模型缺乏长期预测能力；

3. Transformer 具有较强捕获长距离依赖的能力，但是，在计算时间复杂度和空间复杂度以及如何加强长序列输入和输出关联上都需要优化。

针对第三点，展开来说香草变压器解决 LSTF 问题有三点不足：

1. 自注意力机制的平方级计算时间复杂度；

2. Transformer 通常堆叠多层网络，导致内存占用瓶颈；

3. step-by-step 解码预测，使得推理速度慢。

同时，上述三点对应 Informer 的主要贡献点：

1. ProbSparse self-attention，笔者称其为概率稀疏自注意力，通过“筛选”Query 中的重要部分，减少相似度计算；

2. Self-attention distilling，笔者称其为自注意力蒸馏，通过卷积和最大池化减少维度和网络参数量；

3. Generative style decoder，笔者称为生成式解码器，一次前向计算输出所有预测结果。

在介绍 Informer 模型结构之前，先对模型的输入、输出，编解码器结构和输入表示进行介绍（对于编解码器熟悉的可以略过编解码器介绍）。

预备知识

3.1 输入输出形式化表示

输入: 时间 t

输出：时间 t，且

3.2 编解码结构

编解码结构通常这样设计：将输入编码为隐层状态，然后将隐层状态解码为输出表示。通常推理阶段采用 step-by-step 方式，即动态解码。具体为：输入上一步隐层状态和上一步的输出计算 k+1 步的隐层状态，然后预测第 k+1 步的输出

最低0.47元/天解锁文章

关注

3
点赞
踩
54

收藏

觉得还不错? 一键收藏
6
评论
超越Transformer！AAAI 2021最佳论文：高效长序列预测模型

©PaperWeekly 原创 ·作者｜西南交一枝花学校｜西南交通大学CCIT实验室博士生研究方向｜NLP、时空数据挖掘前言AAAI 2021 结束有一段时间了，最佳论文奖项也公布了很久...
复制链接

扫一扫

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。