编码器的稀疏注意力块(ProbSparse Self-Attention Block)详细解释
1. 概述
稀疏注意力块是Informer模型的核心组件之一,旨在高效处理长时间序列数据。它通过稀疏自注意力机制(ProbSparse Self-Attention)显著降低计算复杂度,同时保持较高的性能。
2. 主要组件
稀疏注意力块由以下几个主要部分组成:
- 多头稀疏注意力(Multi-head ProbSparse Attention)
- Add, LayerNorm, Dropout
- 位置前馈网络(Position-wise Feed-Forward Network, FFN)
- GELU 激活函数
- 重复机制
3. 多头稀疏注意力(Multi-head ProbSparse Attention)
-
作用:稀疏注意力机制通过挑选重要的注意力头来减少计算量。
-
具体步骤:
- 线性变换:输入特征通过线性变换生成查询(Query)、键(Key)、和值(Value)矩阵。
- 计算注意力分数:通过点积计算查询和键的相似度,并通过Softmax归一化得到注意力权重。
- 选择重要的头:通过概率稀疏性方法,仅计算和保留重要的注意力头。
- 加权求和:用注意力权重加权和值(Value),得到注意力输出。
- 多头注意力:将多个注意力头的输出拼接在一起,并通过线性变换。
-
计算复杂度:相比传统自注意力的 O ( N 2 ) O(N^2) O(N2</