图2展示了Mambaformer家族、Mamba和Transformer的结构。为了说明,我们忽略了图中Mamba层、注意力层和前馈层相关的残差连接和层归一化。以下是各个模型结构的详细解释:
(a) Mambaformer
- 结构: 包含一个Mamba层和一个注意力层,先后顺序如图所示。在嵌入层使用令牌编码和时间编码。
- 位置编码: 不使用位置编码,依赖Mamba层的内在机制捕捉顺序信息。
(b) 注意力-Mamba混合(Attention-Mamba Hybrid)
- 结构: 注意力层在前,Mamba层在后。使用位置编码来提供序列中的位置信息。
- 位置编码: 位置编码在这里是必要的,因为注意力层无法内在捕捉位置信息。
© Mamba-注意力混合(Mamba-Attention Hybrid)
- 结构: Mamba层在前,注意力层在后。与(a)相似,但没有使用位置编码。
- 位置编码: 不使用位置编码,因为Mamba层能够内在处理顺序信息。