Mamba论文的一些认识

最新推荐文章于 2024-09-14 17:02:52 发布

dragonk1f

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量481

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_63475094/article/details/141106309

版权

Mamba的核心

1.参数依赖于输入的选择机制
2.基于1的理论，SSM成为了时变模型，无法在使用卷积来进行计算，为此提出了并行的硬件感知算法，即将计算中间内容抛弃，避免内存不同层之间的频繁的io访问，而是依赖于高速缓存（SRAM）的优秀计算性能来进行弥补，采用的是扫描的方式。

这里对论文中的几个点有感：

论文中提到：
Selection Mechanism:基于基于选择性复制和感应头等重要合成任务的直觉，我们设计了一种简单的选择机制，通过根据输入参数化 SSM 参数。

可能对于合成任务并未有过熟的了解，从这里感觉到还得去熟悉先前的SSM模型。
读论文的过程中，让笔者感到振奋的是这句“We argue that a fundamental problem of sequence modeling is compressing context into a smaller state.”

这也与3.1节的题目相呼应——Motivation: Selection as a Means of Compression，从这样的视角出发，模型性能的考量，就在于如何以更小的状态来替换先前的状态，且保留全部的关键信息。这样的动机与考量方式，意味着继Mamba之后的发展趋势。
“Efficient models must have a small state, while effective models must have a state that contains all necessary information from the context”

论文中随后提及到Transformer与Recurrent model的比较：