Mamba的核心
1.参数依赖于输入的选择机制
2.基于1的理论,SSM成为了时变模型,无法在使用卷积来进行计算,为此提出了并行的硬件感知算法,即将计算中间内容抛弃,避免内存不同层之间的频繁的io访问,而是依赖于高速缓存(SRAM)的优秀计算性能来进行弥补,采用的是扫描的方式。
这里对论文中的几个点有感:
论文中提到:
Selection Mechanism:基于基于选择性复制和感应头等重要合成任务的直觉,我们设计了一种简单的选择机制,通过根据输入参数化 SSM 参数。
可能对于合成任务并未有过熟的了解,从这里感觉到还得去熟悉先前的SSM模型。
读论文的过程中,让笔者感到振奋的是这句“We argue that a fundamental problem of sequence modeling is compressing context into a smaller state.”这也与3.1节的题目相呼应——Motivation: Selection as a Means of Compression,从这样的视角出发,模型性能的考量,就在于如何以更小的状态来替换先前的状态,且保留全部的关键信息。这样的动机与考量方式,意味着继Mamba之后的发展趋势。
“Efficient models must have a small state, while effective models must have a state that contains all necessary information from the context”
论文中随后提及到Transformer与Recurrent model的比较:
性能比较 | 训练时间 | 推理时间 |
---|---|---|
Transformer | O() | O(n) |
Recurrent model | O(n) | O(n) |
其实这里核心想讨论的是Mamba相较于Transformer的优势,优势在何处?
1.Mamba会对信息进行选择性的压缩,而Transformer则是纯粹的无压缩;
2.其次是Mamba新创的硬件感知算法,并行式扫描,保证了更高效的计算,节省了计算资源。
总的来说,Mamba是具备了更好的内存效率以及计算效率。
论文中提出如何将选择机制融入model:
这里便是我们说的Mamba的核心,模型参数依赖于输入,细节在于、B、C拥有了一个影响因素——L(序列长度),这使得参数会发生改变,也就无法实现卷积。
那为什么参数变化,就无法用卷积了呢?
下期讲!