本文来源公众号“OpenMMLab”,仅用于学术分享,侵权删,干货满满。
原文链接:S4模型详解:应对长序列建模的有效方法
序列建模的一个核心问题在于长距离依赖关系 (long-range dependencies, LRD)。一个有潜力的方法是模拟状态空间模型 (state space model, SSM),它从理论和实践上被验证,当选取一些特殊参数时(参考 HiPPO),可以处理 LRD,然而有着极高的计算与内存要求。
这篇论文基于 SSM 的新参数化提出 Structured State Space sequence model (S4),并证明了它可以在保留理论优势的同时大幅降低时间、空间复杂度。
论文标题:
Efficiently Modeling Long Sequences with Structured State Spaces (S4)
论文地址:
https://arxiv.org/abs/2111.00396
1 理论基础 —— SSM 与 Woodbury
SSM 是现代控制系统中的一个数学模型,刻画了一个由一系列状态构成的系统,其中状态的变化可以由系统当前的状态和系统的输入所决定。我们希望用它来处理序列建模。下图为四种 SSM 形式的图示,这里将一一说明。
SSM
连续形式
调整以处理 LRD
上一篇文章请参考:OpenMMLab | 如何解决大模型长距离依赖问题?HiPPO 技术深度解析-CSDN博客
离散形式
卷积形式
Woodbury 矩阵恒等式
2 基本思路 —— 类对角化操作
引理
对角化
正规 + 低秩(NPLR)
实例:HiPPO-LegS
3 递推形式算法
证明
4 卷积形式算法
母函数
Woodbury
柯西矩阵
流程
5 潜在问题
结语
这篇论文提出 S4,并具体分析了采用的简化手段和流程,主要核心是卷积形式 SSM 的相关内容。相比于 LSSL,S4 有巨大的进步。在最后,作者指出,S4 为通用序列模型提供了新的可能性。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。