【概念】
"Informer" 是一种时间序列预测模型。它是一种用于处理时间序列数据的深度学习模型,特别适用于长期依赖和具有多时间尺度的时间序列预测任务。Informer模型结合了Transformer和自注意力机制以及卷积神经网络(CNN)的特点,具有较好的建模能力。
Informer模型在时间序列预测领域具有广泛的应用。它可以用于许多任务,例如天气预测、交通流量预测、股票价格预测等。通过学习输入序列的内在模式和规律,Informer可以对未来的时间序列进行准确的预测。
【模型结构】
在一次反向传播就可输出复数的值。与transformer比较有①层数比transformer的少很多②经过注意力机制时压缩数据的维度③不需要多次的预测就可以输出复数的值④比transformer轻量
Encoder的作用是Self-attention Distilling,由于ProbSparse自相关机制有很多都是用V的mean填充的,所以天然就存在几余的attention sorce,因此在相邻的Attention Block之间应用卷积与池化来对特征进行下采样,所以作者在设计Encoder时,采用蒸馏的操作不断抽取重点特征,从而得到值得重点关注的特征图。论文中提到一种新的EncoderStack结构,由多个Encoder和蒸馏层组成。
其中序列的压缩是通过卷积层来实现的。
【稀疏注意力机制】
在长序列中,并不是每一个位置的attention都很重要。
如下图,纵坐标为Q,横坐标为K。每一行即为一个Q与所有K相关性的结果。红色部分就是·-个“积极”的Q,我们可以从图中明显看出它和哪个K相关性较高。
绿色部分就是一个“懒惰”的Q,它和所有的K关系都很“一般”
在实际计算中,这些“懒惰”的Q不仅无法提供有效的价值,而且在Q里大部分都是这些”懒惰”的家伙
只选取”积极”的Q来计算注意力机制,而舍弃掉”懒惰”的Q的想法随之诞生。这就是Informer论文的核心:ProbSparse Attention。
在统计学中,抽样数据集分布能够代表整体数据集。ProbSparse Attention采取了和均匀分布相比较的思路。均匀分布就像上图中的虚线部分,是一条直线。对于每个Q计算它和均匀分布的差异,差异越大就越”活跃”。(随机抽取1/4,每个Q和1/4的K之间的相关性(96*96 —> 96*25)、得到了所有的Q是否活跃的排序,找到分布差异最大的top25个Q)
衡量两种分布的距离,使用KL散度
【总结】
Informer算法是深度学习领域的一项重要创新,特别针对处理长序列时间序列数据而设计。作为传统Transformer模型的一个高效改进,Informer主要通过引入概率稀疏注意力机制(ProbSparse Self-Attention)来解决处理长序列时的效率和性能问题。这种机制使得Informer在保持出色性能的同时,大幅减少了对计算资源的需求。此外,Informer采用了一种独特的序列下采样策略,有效地减少了序列的长度,从而进一步提升了处理长序列的能力。为了捕捉时间序列中的长期依赖关系,Informer还引入了多尺度时间编码技术,使得模型能够同时理解短期和长期的时间动态。