【AI学习】Mamba学习（十）：HiPPO总结

最新推荐文章于 2025-02-11 10:38:52 发布

bylander

最新推荐文章于 2025-02-11 10:38:52 发布

阅读量2.1k

点赞数 19

分类专栏： AI学习 AI论文阅读文章标签：人工智能学习

本文链接：https://blog.csdn.net/bylander/article/details/143135167

版权

AI学习同时被 2 个专栏收录

113 篇文章

订阅专栏

AI论文阅读

71 篇文章

订阅专栏

前面用五篇文章陆续学了HiPPO框架。
这里再进行一下总结。

总结

HiPPO，高阶多项式投影，high-order polynomial projection operators

为了解决从序列数据中建模和学习的问题，尤其是长序列，十万甚至百万长度的序列，使用有界存储来学习整个累积历史的表示，需要一种在线更新的方式。
HiPPO给出了一个通用的框架解决这个问题。作者将序列记忆视为在线函数近似的技术问题，通过将序列投影到正交多项式（OP）的方法实现在线近似。论文提出了LegT、LagT、LegS三种时间度量方式，分别表达对整个序列历史的学习权重。
框架HiPPO（高阶多项式投影算子），提供了将到在给定时间度量的正交多项式空间上的算子。通过分析几种时间度量函数，以及不同的多项式基，作者都推导获得了闭式常微分方程或线性递归，允许在输入函数随时间变化时快速增量更新最优多项式近似值。而HiPPO框架推导的在线学习方程，恰好符合动力学的SSM方程，于是可以利用动力学方程的已有理论。

很多文章说，“Mamba的发展，是从SSM->HiPPO->S4->Mamba 演化过来”，这种说法是不准确的。HiPPO论文在问题设置与方法定义中并未提及SSM。正如苏神所说：“HiPPO 并没有一开始就假设系统必须是线性的，而是从正交基逼近的角度反过来推出其系数的动力学满足一个线性 ODE 系统，这样一来我们就可以确信，只要认可所做的假设，那么线性 ODE 系统的能力就是足够的，而不用去担心线性系统的能力限制了你的发挥。”

个人总结：针对序列数据的建模和学习，HiPPO框架是一种序列记忆的统一框架，通过投影到正交多项式进行序列学习，同时用时间度量函数表达对序列历史的学习权重，在给定时间度量下的正交多项式投影的推导，最终推导出线性常微分方程的闭式解，实现在线近似学习。
在这里插入图片描述
将SSM方程的矩阵A从随机矩阵A修改为上述HiPPO矩阵，可以有效提升SSM在实践中的性能。

补充

《Mamba学习（七）：HiPPO通用框架介绍》给出了傅里叶基的推导案例。
傅里叶级数在通信中经常使用，作为一种时频变换手段，主要用于信号的频域处理，但是另一方面，傅里叶级数展开也是一种有效的压缩方式。
因为，在时域上连续的信号，在频域必然是一个有限带宽的信号。从物理角度来说，时域上连续，意味着频率变化慢，频域必然是有限的。既然是有限带宽，就可以通过只关注变化的频率上的数值，实现信号压缩。
而HiPPO的做法，是针对正交多项式投影的系数，取N个系数，这个N是一个足够大的整数。我想，或许更好的做法，可能是只取变化的系数，自适应的取系数，而不是简单的取N个系数。