Mamba论文感触(三)

本次从SSM的架构说起,SSM块的架构是由H3和GAU(门控注意力单元)改进而成,具体内容如下图所示:

其中使用了使用 SiLU / Swish 激活函数。

同时,作者对选择机制做出了解释:

1.可变间距:允许过滤掉感兴趣信息之间的噪声,有助于选择性复制任务;

2.过滤上下文:Mamba的性能会随上下文长度而单调提高;

3.边界设定:在这里提到Transformer可以通过设置特定掩码来设置边界,而LTI模型这可能会泄露信息。

同时对Δ、A、B、C做了解释:其中Δ是对输入内容的感兴趣程度,Δ越大,输入内容所占权重就越大,而A其实是受Δ的影响,从而具有了选择性,而B、C的选择性则决定了输入内容是否进入状态h及状态h是否影响输出y。

此外,作者还做了一些细节的讨论,实验表明实数要比复数在离散化的数据上取得了更好的表现以及使用HIPPO理论来对Δ进行初始化。

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值