从S4到S5,中间有两篇比较重要的论文,这两篇论文重新选择了S4优化计算的矩阵对角化思路,解决了SSM对角化矩阵技术路线的数值稳定性问题。
《从S4到S5模型》介绍了从S4到S5的两篇论文,SSD和S4D,以及S5,尤其重点介绍了S4D这篇论文。从S4到S5,S4D这篇论文最深入,对于如何参数化和初始化SSM对角状态空间模型有系统的阐述和大量对比试验,对于后续的技术发展提供了基础作用。
这篇文章发在个人公众号上,文章太长,实在不愿搬运了。大家直接去我的公众号阅读吧。
文章链接:https://mp.weixin.qq.com/s/JzXoOGySqKVXfbExD-YEDw
S4D比较重要的两种简化实例:
试验结论
作者进行了一系列的实验来验证所提出的对角状态空间模型(Diagonal State Space Models)的性能和有效性。以下是该部分的主要结论:
1.S4D的性能:S4D(一种简化的对角状态空间模型)在多个领域和任务中表现出色,包括图像、音频和医学时间序列数据。S4D在几乎所有设置中与S4(原始模型)性能相当,并且在长距离依赖性任务的Long Range Arena(LRA)基准测试中取得了85%的平均成绩,显著优于所有非状态空间模型的基线。
2.参数化和计算方法的比较:作者比较了不同的参数化和计算对角状态空间模型的方法。发现,使用softmax代替Vandermonde乘积对模型性能影响不大;训练矩阵𝑩比固定它有轻微但一致的性能提升;不同的离散化方法(如双线性和零阶保持)之间没有显著差异;不对A矩阵的实部进行限制可能会稍微提高性能。
3.初始化方法的比较:作者提出了几种对A矩阵的初始化方法(S4D-LegS、S4D-Inv和S4D-Lin),并比较了这些方法与随机初始化或其他简单变体的性能。发现,即使是对提出的精确公式的微小变化,也会导致性能下降,这强调了仔细选择A矩阵初始化的重要性。
4.Long Range Arena基准测试:S4D变体在LRA的所有数据集上都非常有竞争力,除了Path-X数据集。在Path-X上,只有S4D-Inv的表现接近原始S4-LegS模型。
5.参数化选择的进一步分析:在Path-X数据集上,作者进一步分析了不同的参数化选择对性能的影响。发现,S4的默认参数化选择是一个强大的基线,而其他大多数选择(如ZOH离散化、不对A矩阵实部进行限制、训练B矩阵、使用softmax归一化)对性能影响不大。
综上所述,实验部分的主要结论是S4D作为一种简化的对角状态空间模型,在多个任务和数据集上表现出与原始S4模型相当的性能,并且在某些情况下甚至优于S4。此外,实验还强调了正确的参数化和初始化对于模型性能的重要性。
S4D-LegS、S4D-Inv 和 S4D-Lin 的性能比较:
- S4D-LegS:
√ S4D-LegS 是基于原始 S4 模型的 HiPPO-LegS 矩阵的对角化版本。
√ 通过定理 3 证明了当状态大小 N 趋于无穷大时,S4D-LegS 的 SSM 基函数极限于原始 S4-LegS 的基函数。
√ 在实验中,S4D-LegS 通常略逊于 S4,这与定理 3 的结果一致,因为 DSS(一种 S4D-LegS 的变体)是对 S4-LegS 的近似。
- S4D-Inv:
√ S4D-Inv 是一个更简化的版本,它基于对 HiPPO 方法的分析提出了一个逆律对角矩阵,以近似 S4D-LegS。
√ 实验结果表明,S4D-Inv 在所有数据集上的性能与 S4D-LegS 相当,有时甚至更好。
- S4D-Lin:
√ S4D-Lin 是一个更简单的方法,它使用线性法则来设置对角矩阵的虚部,可以看作是对 S4-FouT 的近似。
√ 在实验中,S4D-Lin 在大多数数据集上也表现出与 S4D-LegS 和 S4D-Inv 相当的性能。
在 Long Range Arena(LRA)基准测试中,S4D-Inv 在所有任务上的表现最为出色,平均准确率达到了 85%,这比原始的 Transformer 模型高出 30 多个百分点。S4D-LegS 和 S4D-Lin 也在大多数任务上表现良好,但在某些特定任务上可能不如 S4D-Inv。
总的来说,这三种方法在不同的任务和数据集上都显示出了竞争力,但 S4D-Inv 在 LRA 基准测试中的表现最为突出。这些结果表明,尽管 S4D-Inv 和 S4D-Lin 是对 S4D-LegS 的简化版本,但它们在实际应用中仍然非常有效。
对于 S4D 与 S4 的全面比较:
- 性能比较:
√ S4D 在多个任务和数据集上与 S4 性能相当,有时甚至更优。这表明对角状态空间模型(S4D)能够与原始的 S4 模型相媲美,尽管 S4D 在参数化上更为简化。
- 训练动态:
√ 在训练初期,S4(具有 DPLR 表示的完整模型)通常略优于 S4D(对角模型)。这可能与模型初始化有关,尤其是在处理像 Speech Commands(SC)这样的长序列时,如果 Δ(时间步长)初始化不当,S4D 可能需要通过训练 A 和 B 矩阵来调整。
- 模型大小和正则化:
√ 当模型大小和正则化适当增加时,S4D 变体在所有数据集上的性能都优于原始 S4 模型。这表明 S4D 具有很好的扩展性和对不同正则化策略的适应性。
- Long Range Arena(LRA)基准测试:
√ 在 LRA 基准测试中,S4D 变体在所有任务上都非常有竞争力,除了 Path-X 数据集。在Path-X上,只有S4D-Inv的表现接近原始S4-LegS模型;并且S4D-Inv在完整的 LRA上平均达到了 85% 的准确率,这比原始的 Transformer 模型高出 30 多个百分点。
- 参数化选择:
√ 在对 Path-X 数据集的参数化选择进行消融研究时,作者发现 S4 的默认参数化选择是一个强大的基线。大多数其他选择(如 ZOH 离散化、不对 A 矩阵实部进行限制、训练 B 矩阵、使用 softmax 归一化)对性能影响不大。特别是在 Path-X 任务上,DSS 的 softmax 归一化实际上降低了性能。
- 模型稳定性:
√ S4D 模型在不同的参数化和初始化条件下显示出了良好的稳定性和性能,这表明 S4D 是一个鲁棒的模型选择。
综上所述,实验结果表明 S4D 作为一种简化的对角状态空间模型,在多个任务和数据集上表现出与 S4 相当的性能,并且在某些情况下甚至优于 S4。这些发现支持了 S4D 作为一种有效的序列建模工具,它在理论和实践中都具有潜力。