Mamba+Transformer杀疯了！吞吐量狂提3倍！轻松发高区

人工智能学起来

于 2024-11-29 15:35:22 发布

阅读量586

点赞数 5

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_88190197/article/details/144138888

版权

想发高区论文，却头疼找不到创新点？那你不要错过这个顶会新热门：Mamba+Transformer！

它为提升模型在处理长序列数据时的效率和性能，提供了全新的解决方案。不仅克服了单一模型的局限性，还显著提高了计算效率和模型性能。比如代表模型Jamba，吞吐量是传统Transformer的3倍，且是同等参数规模中，唯一能够在单个GPU上容纳高达140K上下文的模型。此外，Mamba作为新技术，当下还在上升期，不像传统领域那样卷生卷死，把其与各种常规任务结合，便又是新的机会！

为了方便大家紧跟领域前沿，实现快速涨点，我给大家准备了14篇必读的高分论文，原文和源码都有，一起来看！

论文原文+开源代码需要的同学看文末

论文：looongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

内容

该论文介绍了一个名为LongLLaVA的新型混合架构多模态大型语言模型（MLLM），它专门针对视频理解和高分辨率图像理解等长文本情境进行了优化。LongLLaVA模型结合了Mamba和Transformer结构，采用高效的图像表示方法，并通过渐进式训练策略来处理多模态长文本。

论文：MambaVision: A Hybrid Mamba-Transformer Vision Backbone

内容

该论文介绍了一种名为MambaVision的新型混合Mamba-Transformer视觉骨干网络，专门为视觉应用设计。研究者通过重新设计Mamba模型以增强其对视觉特征的高效建模能力，并进行了关于将视觉Transformer（ViT）与Mamba集成的全面消融研究。

论文：MxT: Mamba x Transformer for Image Inpainting

内容

该论文介绍了一个名为M×T的图像修复模型，它结合了Mamba和Transformer的优势，用于高效地处理图像中的缺失或损坏区域。M×T通过提出的混合模块（Hybrid Module）在像素级和块级上实现双重交互学习，从而在保持计算效率的同时增强了图像修复的质量和上下文准确性。

论文：HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation

内容

该论文提出了一个名为HMT-UNet的混合Mamba-Transformer视觉U型网络，用于医学图像分割任务。该模型结合了Mamba（一种状态空间模型，SSM）和Transformer的优势，通过精心设计的混合机制，提高了捕捉长距离空间依赖的建模能力。

论文：Jamba: A Hybrid Transformer-Mamba Language Model

内容

该论文介绍了Jamba，这是一个新颖的混合Transformer-Mamba大型语言模型，它结合了Transformer和Mamba（一种状态空间模型）的优点，并通过混合专家（MoE）架构提高了模型容量，在保持较小内存占用的同时，提供了高吞吐量和最前沿的性能。

关注下方《AI科研圈圈》

回复“14MT”获取全部论文+开源代码

码字不易，欢迎大家点赞评论收藏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。