长时间序列预测模型Informer

2301_76243816

已于 2024-02-02 11:25:53 修改

阅读量1.4k

点赞数 7

分类专栏：时间序列informer 文章标签： python 人工智能 nlp 开源

于 2024-02-01 21:31:12 首次发布

本文链接：https://blog.csdn.net/2301_76243816/article/details/135959930

版权

时间序列informer 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

【概念】

"Informer" 是一种时间序列预测模型。它是一种用于处理时间序列数据的深度学习模型，特别适用于长期依赖和具有多时间尺度的时间序列预测任务。Informer模型结合了Transformer和自注意力机制以及卷积神经网络（CNN）的特点，具有较好的建模能力。

Informer模型在时间序列预测领域具有广泛的应用。它可以用于许多任务，例如天气预测、交通流量预测、股票价格预测等。通过学习输入序列的内在模式和规律，Informer可以对未来的时间序列进行准确的预测。

【模型结构】

在一次反向传播就可输出复数的值。与transformer比较有①层数比transformer的少很多②经过注意力机制时压缩数据的维度③不需要多次的预测就可以输出复数的值④比transformer轻量

Encoder的作用是Self-attention Distilling，由于ProbSparse自相关机制有很多都是用V的mean填充的，所以天然就存在几余的attention sorce，因此在相邻的Attention Block之间应用卷积与池化来对特征进行下采样，所以作者在设计Encoder时，采用蒸馏的操作不断抽取重点特征，从而得到值得重点关注的特征图。论文中提到一种新的EncoderStack结构，由多个Encoder和蒸馏层组成。

其中序列的压缩是通过卷积层来实现的。

【稀疏注意力机制】

在长序列中，并不是每一个位置的attention都很重要。

如下图，纵坐标为Q，横坐标为K。每一行即为一个Q与所有K相关性的结果。红色部分就是·-个“积极”的Q，我们可以从图中明显看出它和哪个K相关性较高。
绿色部分就是一个“懒惰”的Q，它和所有的K关系都很“一般”

在实际计算中，这些“懒惰”的Q不仅无法提供有效的价值，而且在Q里大部分都是这些”懒惰”的家伙
只选取”积极”的Q来计算注意力机制，而舍弃掉”懒惰”的Q的想法随之诞生。这就是Informer论文的核心:ProbSparse Attention。

在统计学中，抽样数据集分布能够代表整体数据集。ProbSparse Attention采取了和均匀分布相比较的思路。均匀分布就像上图中的虚线部分，是一条直线。对于每个Q计算它和均匀分布的差异，差异越大就越”活跃”。（随机抽取1/4，每个Q和1/4的K之间的相关性（96*96 —> 96*25）、得到了所有的Q是否活跃的排序，找到分布差异最大的top25个Q）

衡量两种分布的距离，使用KL散度

【总结】

Informer算法是深度学习领域的一项重要创新，特别针对处理长序列时间序列数据而设计。作为传统Transformer模型的一个高效改进，Informer主要通过引入概率稀疏注意力机制(ProbSparse Self-Attention)来解决处理长序列时的效率和性能问题。这种机制使得Informer在保持出色性能的同时，大幅减少了对计算资源的需求。此外，Informer采用了一种独特的序列下采样策略，有效地减少了序列的长度，从而进一步提升了处理长序列的能力。为了捕捉时间序列中的长期依赖关系，Informer还引入了多尺度时间编码技术，使得模型能够同时理解短期和长期的时间动态。

2301_76243816

关注

7
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
长时间序列预测模型Informer

此外，Informer采用了一种独特的序列下采样策略，有效地减少了序列的长度，从而进一步提升了处理长序列的能力。（随机抽取1/4，每个Q和1/4的K之间的相关性（96*96 —> 96*25）、得到了所有的Q是否活跃的排序，找到分布差异最大的top25个Q），由于ProbSparse自相关机制有很多都是用V的mean填充的，所以天然就存在几余的attention sorce，因此在相邻的Attention Block之间应用卷积与池化来对特征进行下采样，所以作者在设计Encoder时，采用。
复制链接

扫一扫

专栏目录