ICML 2024 Mamba 论文总结

2024ICML(International Conference on Machine Learning,国际机器学习会议)在2024年7月21日-27日在奥地利维也纳举行

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

Mamba进行了自我更新迭代变为了Mamba2接收了(Gu和Dao换了一下作者顺序)

Transformers are SSMs: Generalized Models and Efficient Algorithms with Structured State Space Duality

作者:Tri Dao,Albert Gu

链接https://icml.cc/virtual/2024/poster/32613

注:现在都是poster,还没有评出来Oral

Mamba2

另外标题带Mamba的还有两篇

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

(已经太多号推过这个文章了)

作者:Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang

机构:华中科技大学,地平线机器人,北京智源研究院

链接https://arxiv.org/abs/2401.09417

代码https://github.com/hustvl/Vim

VisionMamba

Can Mamba Learn How To Learn? A Comparative Study on In-Context Learning Tasks

作者:Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos

机构:蓝洞工作室(做绝地求生即吃鸡那个公司),首尔大学,威斯康辛大学麦迪逊分校,密歇根大学安娜堡分校

链接https://arxiv.org/abs/2402.04248

代码https://github.com/krafton-ai/mambaformer-icl

MambaFormer

搜索State-space ModelsState space Models也能搜到一共7篇,感兴趣的各位可以搜一下看看,我就不一一罗列了。

State-space Models
State space Models

相关链接

ICML24全部论文:ICML 2024 Papers

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

### Mamba 模型相关论文概述 #### 关于Mamba模型的发展历史及其重要性 Mamba模型的研究和发展经历了一系列重要的里程碑。值得注意的是,Mamba的故事与Word2vec有相似之处,在早期阶段曾面临挑战。尽管最初的提交在2013年的ICLR会议上遭到拒绝,但这并未阻止其后续发展并最终成为自然语言处理(NLP)领域的重要组成部分[^4]。 #### 经典版本:MambaMamba-2 对于希望深入了解Mamba架构的经典实现方式而言,《MambaMamba-2经典论文》是一个不可或缺的资料来源。这份文档不仅涵盖了原始设计理念和技术细节,还探讨了这些技术如何应用于实际场景中,并通过具体案例分析证明了它们的有效性和优越性[^1]。 #### 多模态学习探索:VL-Mamba 《Exploring State Space Models for Multimodal Learning》一文中介绍了VL-Mamba框架,这是对传统Mamba结构的一次扩展尝试。文章重点描述了状态空间建模方法是如何帮助提高多模态环境下信息融合效果的具体机制[^2]。 #### 增强版编码器——T-Mamba 为了更好地满足特定应用场景下的需求,《T-Mamba: An Enhanced Encoder with Tokenization Capability》提出了改进后的T-Mamba方案。相较于基础版本和其他竞争者来说,这种新型号能够在保持较高精度的同时减少计算成本,从而达到更好的性价比表现[^3]。 ```python # 示例代码展示 T-Mamba 的部分特性 class TMambaEncoder(nn.Module): def __init__(self, vocab_size, embedding_dim=512, num_heads=8, feedforward_dim=2048): super().__init__() self.embedding = nn.Embedding(vocab_size, embedding_dim) # 更高效的自注意力层设计 self.self_attention = EfficientSelfAttention(embedding_dim, num_heads) def forward(self, input_ids): embeddings = self.embedding(input_ids) attended_output = self.self_attention(embeddings) return attended_output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值