腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态

腾讯AI Lab、都柏林城市大学和莫纳什大学的研究人员联合发布Macaw-LLM,这是一个能处理图像、视频、音频和文本的多模态指令调优语言模型。该模型通过模态模块、对齐模块和一站式微调,实现了跨模态指令跟随,能够执行复杂任务,如图像描述、视频故事生成和音频问答。研究人员创建了Macaw-LLM指令数据集,以增强模型的多样性。
摘要由CSDN通过智能技术生成

288a5805dd3175a3a1fb3eb307ef8e30.gif

近期,来自腾讯 AI Lab、都柏林城市大学和莫纳什大学的研究人员发布了名为 Macaw-LLM 的研究成果。这项技术将大型语言模型与不同模态对齐和绑定,以实现跨模态指令跟随的能力。Macaw-LLM 能够执行复杂任务,如生成详细的图像描述、根据视频编写故事,以及回答与音频相关的问题。它可以同时接收多模态输入,并自然地组合它们的语义。

abc8a8b4c171b60ca0a166a7858f720e.png

项目主页:

https://github.com/lyuchenyang/Macaw-LLM

论文链接:

https://arxiv.org/abs/2306.09093

视频链接:

https://www.youtube.com/watch?v=O7ZO0a8geM0

在这项工作中,我们提出了一种名为 Macaw-LLM 的多模态指令调优语言模型。它集成了图像、视频、音频和文本等四种不同的模态于一个模型之中。我们提出了一种新的对齐方法,将多模态特征与语言模型的嵌入进行对齐,从而产生与语言模型文本特征更接近的对齐特征,并能够自然地注入到语言模型的输入序列中。

为了解决当前多模态数据集主要强调特定任务类型的限制,我们还创建了 Macaw-LLM 指令数据集。该数据集涵盖了各种不同类型的指令任务,并结合了多种数据模态,使其更加多样化,更适合用于多模态指令调优语言模型。

718c43f1feaff49e30c2ccd44b5a5027.png


3a1d2238d33411d4f0107a5335ca3364.png


方法

如图所示,Macaw-LLM 包含以下三个主要模块:

  • 模态模块:现有的语言模型主要专注于处理文本信息。为了融合视觉和音频等额外的模态数据,我们在 Macaw-LLM 中集成了额外的模态编码器。这样的增强使得 Macaw

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值