论文解读 | AAAI'25 Cobra:多模态扩展的大型语言模型,以实现高效推理

点击蓝字

faf98c85fc104d08f0de5e93310e9f14.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

图片

点击 阅读原文 观看作者讲解回放!

个人信息

作者:赵晗,浙江大学-西湖大学联合培养博士生

内容简介

近年来,在各个领域应用多模态大语言模型(MLLMs)取得了显著的成功。然而,作为许多下游任务的基础模型,MLLMs通常包含著名的Transformer网络,其计算复杂度呈二次方增长,效率较低。在本文中,我们介绍了一种基于状态空间模型构建的多模态大规模语言模型Cobra,该模型在高效处理长序列方面表现出显著潜力,并且在序列长度方面具有快速推理和线性可扩展性。具体而言,Cobra涉及用预训练的Mamba语言模型替换基于Transformer的主干模型(例如LLaMA或Phi)。然后,我们通过实验探索了有效对齐视觉和文本模态的策略,并将不同预训练的Mamba模型变体与视觉编码器进行整合。在多个多模态基准测试中的实验表明:(i)Cobra的性能比目前最高效的现有方法(例如LLaVA Phi和MobileVLM v2)快3至4倍。此外,由于实现了线性序列建模,其性能得到了显著提升。(ii)Cobra仅微调了少量参数(约占模型参数的48%),与LLaVA相比,整体性能显著提升。

论文地址

https://arxiv.org/pdf/2403.14520

代码链接

https://sites.google.com/view/cobravlm

Background

多模态大语言模型(MLLM)在众多视觉场景理解任务,包括视觉问答任务上取得了显著的成功。然而,基于Transformer的大型模型,如著名的LLaVa系列等,在处理视觉语言token时,其时间复杂度随序列长度呈二次方增长。而且在推理过程中,实际空间占用也会随着生成长度的增加而增加。因此,它在端侧计算资源有限的场景,或者对实时性有较高要求的机器人操作任务中部署受到了限制。

先前Efficient MLLM领域的研究主要有两种解决方案。一种是采用轻量级语言模型,另一种是对视觉token进行token reduction以缩短序列长度。如图所示,右侧的两张图,是比较典型的token reduction方案。一种是通过视觉特征做卷积操作进行下采样来减少token数量,也就是LDP方案。第二种是Q-Former,通过cross-attention的方式减少token数量。这种做法虽然效果明显,但LDP会导致有一定程度的信息损失,从而降低模型性能。Q-Former需要一个较为复杂的训练流程,这无疑增加了整个模型训练的难度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值