Mamba论文的一些认识

Mamba的核心

1.参数依赖于输入的选择机制
2.基于1的理论,SSM成为了时变模型,无法在使用卷积来进行计算,为此提出了并行的硬件感知算法,即将计算中间内容抛弃,避免内存不同层之间的频繁的io访问,而是依赖于高速缓存(SRAM)的优秀计算性能来进行弥补,采用的是扫描的方式。

这里对论文中的几个点有感:

论文中提到:
        Selection Mechanism:基于基于选择性复制和感应头等重要合成任务的直觉,我们设计了一种简单的选择机制,通过根据输入参数化 SSM 参数。

        可能对于合成任务并未有过熟的了解,从这里感觉到还得去熟悉先前的SSM模型。
读论文的过程中,让笔者感到振奋的是这句“We argue that a fundamental problem of sequence modeling is compressing context into a smaller state.

       这也与3.1节的题目相呼应——Motivation: Selection as a Means of Compression,从这样的视角出发,模型性能的考量,就在于如何以更小的状态来替换先前的状态,且保留全部的关键信息。这样的动机与考量方式,意味着继Mamba之后的发展趋势。
        “Efficient models must have a small state, while effective models must have a state that contains all necessary information from the context

论文中随后提及到Transformer与Recurrent model的比较:

性能比较训练时间推理时间
TransformerO(n^{2}O(n)
Recurrent model O(n)O(n)

其实这里核心想讨论的是Mamba相较于Transformer的优势,优势在何处?
1.Mamba会对信息进行选择性的压缩,而Transformer则是纯粹的无压缩;
2.其次是Mamba新创的硬件感知算法,并行式扫描,保证了更高效的计算,节省了计算资源。

总的来说,Mamba是具备了更好的内存效率以及计算效率。

论文中提出如何将选择机制融入model:

        这里便是我们说的Mamba的核心,模型参数依赖于输入,细节在于\Delta、B、C拥有了一个影响因素——L(序列长度),这使得参数会发生改变,也就无法实现卷积。

       那为什么参数变化,就无法用卷积了呢?

       下期讲!

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值