本次从SSM的架构说起,SSM块的架构是由H3和GAU(门控注意力单元)改进而成,具体内容如下图所示:
其中使用了使用 SiLU / Swish 激活函数。
同时,作者对选择机制做出了解释:
1.可变间距:允许过滤掉感兴趣信息之间的噪声,有助于选择性复制任务;
2.过滤上下文:Mamba的性能会随上下文长度而单调提高;
3.边界设定:在这里提到Transformer可以通过设置特定掩码来设置边界,而LTI模型这可能会泄露信息。
同时对Δ、A、B、C做了解释:其中Δ是对输入内容的感兴趣程度,Δ越大,输入内容所占权重就越大,而A其实是受Δ的影响,从而具有了选择性,而B、C的选择性则决定了输入内容是否进入状态h及状态h是否影响输出y。
此外,作者还做了一些细节的讨论,实验表明实数要比复数在离散化的数据上取得了更好的表现以及使用HIPPO理论来对Δ进行初始化。