©PaperWeekly 原创 · 作者|西南交一枝花
学校|西南交通大学CCIT实验室博士生
研究方向|NLP、时空数据挖掘
前言
AAAI 2021 结束有一段时间了,最佳论文奖项也公布了很久。但是,针对 Informer 的解读分享却未见几篇,由于笔者目前在做序列预测方面的工作,故在阅读后整理分享该论文的笔记。如有不同见解,望不吝交流。
Informer 的主要工作是使用 Transfomer 实现长序列预测(Long Sequence Time-Series Forecasting),以下称为 LSTF。针对 Transfomer 在长序列预测中的不足(平方时间复杂度、高内存占用和现有编解码结构的局限性),提出 ProbSparse 注意力机制、自注意力蒸馏技术和生成式解码器等模块解决或缓解上述问题。
论文标题:
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
论文链接:
https://arxiv.org/abs/2012.07436
源码链接:
https://github.com/zhouhaoyi/ETDataset
研究动机
笔者将本文的研究动机归为以下几点:
1. 首先,LSTF 任务具有重要研究意义,对政策计划和投资避险等多种需要长时预测的任务至关重要;
2. 目前现有方法多专注于短期预测,模型缺乏长期预测能力;
3. Transformer 具有较强捕获长距离依赖的能力,但是,在计算时间复杂度和空间复杂度以及如何加强长序列输入和输出关联上都需要优化。
针对第三点,展开来说香草变压器解决 LSTF 问题有三点不足:
1. 自注意力机制的平方级计算时间复杂度;
2. Transformer 通常堆叠多层网络,导致内存占用瓶颈;
3. step-by-step 解码预测,使得推理速度慢。
同时,上述三点对应 Informer 的主要贡献点:
1. ProbSparse self-attention,笔者称其为概率稀疏自注意力,通过“筛选”Query 中的重要部分,减少相似度计算;
2. Self-attention distilling,笔者称其为自注意力蒸馏,通过卷积和最大池化减少维度和网络参数量;
3. Generative style decoder,笔者称为生成式解码器,一次前向计算输出所有预测结果。
在介绍 Informer 模型结构之前,先对模型的输入、输出,编解码器结构和输入表示进行介绍(对于编解码器熟悉的可以略过编解码器介绍)。
预备知识
3.1 输入输出形式化表示
输入: 时间 t
输出: 时间 t, 且
3.2 编解码结构
编解码结构通常这样设计:将输入 编码为隐层状态 ,然后将隐层状态解码为输出表示 。通常推理阶段采用 step-by-step 方式,即动态解码。具体为:输入上一步隐层状态 和上一步的输出计算 k+1 步的隐层状态 ,然后预测第 k+1 步的输出