OpenMMLab | S4模型详解:应对长序列建模的有效方法

本文来源公众号“OpenMMLab”,仅用于学术分享,侵权删,干货满满。

原文链接:S4模型详解:应对长序列建模的有效方法

序列建模的一个核心问题在于长距离依赖关系 (long-range dependencies, LRD)。一个有潜力的方法是模拟状态空间模型 (state space model, SSM),它从理论和实践上被验证,当选取一些特殊参数时(参考 HiPPO),可以处理 LRD,然而有着极高的计算与内存要求。

这篇论文基于 SSM 的新参数化提出 Structured State Space sequence model (S4),并证明了它可以在保留理论优势的同时大幅降低时间、空间复杂度。

论文标题:

Efficiently Modeling Long Sequences with Structured State Spaces (S4)

论文地址

https://arxiv.org/abs/2111.00396

1 理论基础 —— SSM 与 Woodbury

SSM 是现代控制系统中的一个数学模型,刻画了一个由一系列状态构成的系统,其中状态的变化可以由系统当前的状态和系统的输入所决定。我们希望用它来处理序列建模。下图为四种 SSM 形式的图示,这里将一一说明。

SSM

连续形式

调整以处理 LRD

上一篇文章请参考:OpenMMLab | 如何解决大模型长距离依赖问题?HiPPO 技术深度解析-CSDN博客

离散形式

卷积形式

Woodbury 矩阵恒等式

2 基本思路 —— 类对角化操作

引理

对角化

正规 + 低秩(NPLR)

实例:HiPPO-LegS

3 递推形式算法

证明

4 卷积形式算法

母函数

Woodbury

柯西矩阵

流程

5 潜在问题

结语

这篇论文提出 S4,并具体分析了采用的简化手段和流程,主要核心是卷积形式 SSM 的相关内容。相比于 LSSL,S4 有巨大的进步。在最后,作者指出,S4 为通用序列模型提供了新的可能性。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值