【AI学习】Mamba学习(十):HiPPO总结

前面用五篇文章陆续学了HiPPO框架。
这里再进行一下总结。

总结

HiPPO,高阶多项式投影,high-order polynomial projection operators

为了解决从序列数据中建模和学习的问题,尤其是长序列,十万甚至百万长度的序列,使用有界存储来学习整个累积历史的表示,需要一种在线更新的方式。
HiPPO给出了一个通用的框架解决这个问题。作者将序列记忆视为在线函数近似的技术问题,通过将序列投影到正交多项式(OP)的方法实现在线近似。论文提出了LegT、LagT、LegS三种时间度量方式,分别表达对整个序列历史的学习权重。
框架HiPPO(高阶多项式投影算子),提供了将到在给定时间度量的正交多项式空间上的算子。通过分析几种时间度量函数,以及不同的多项式基,作者都推导获得了闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值。而HiPPO框架推导的在线学习方程,恰好符合动力学的SSM方程,于是可以利用动力学方程的已有理论。

很多文章说,“Mamba的发展,是从SSM->HiPPO->S4->Mamba 演化过来”,这种说法是不准确的。HiPPO论文在问题设置与方法定义中并未提及SSM。正如苏神所说:“HiPPO 并没有一开始就假设系统必须是线性的,而是从正交基逼近的角度反过来推出其系数的动力学满足一个线性 ODE 系统,这样一来我们就可以确信,只要认可所做的假设,那么线性 ODE 系统的能力就是足够的,而不用去担心线性系统的能力限制了你的发挥。”

个人总结:针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。
在这里插入图片描述
将SSM方程的矩阵A从随机矩阵A修改为上述HiPPO矩阵,可以有效提升SSM在实践中的性能。

补充

Mamba学习(七):HiPPO通用框架介绍》给出了傅里叶基的推导案例。
傅里叶级数在通信中经常使用,作为一种时频变换手段,主要用于信号的频域处理,但是另一方面,傅里叶级数展开也是一种有效的压缩方式。
因为,在时域上连续的信号,在频域必然是一个有限带宽的信号。从物理角度来说,时域上连续,意味着频率变化慢,频域必然是有限的。既然是有限带宽,就可以通过只关注变化的频率上的数值,实现信号压缩。
而HiPPO的做法,是针对正交多项式投影的系数,取N个系数,这个N是一个足够大的整数。我想,或许更好的做法,可能是只取变化的系数,自适应的取系数,而不是简单的取N个系数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bylander

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值