近期,来自腾讯 AI Lab、都柏林城市大学和莫纳什大学的研究人员发布了名为 Macaw-LLM 的研究成果。这项技术将大型语言模型与不同模态对齐和绑定,以实现跨模态指令跟随的能力。Macaw-LLM 能够执行复杂任务,如生成详细的图像描述、根据视频编写故事,以及回答与音频相关的问题。它可以同时接收多模态输入,并自然地组合它们的语义。
项目主页:
https://github.com/lyuchenyang/Macaw-LLM
论文链接:
https://arxiv.org/abs/2306.09093
视频链接:
https://www.youtube.com/watch?v=O7ZO0a8geM0
在这项工作中,我们提出了一种名为 Macaw-LLM 的多模态指令调优语言模型。它集成了图像、视频、音频和文本等四种不同的模态于一个模型之中。我们提出了一种新的对齐方法,将多模态特征与语言模型的嵌入进行对齐,从而产生与语言模型文本特征更接近的对齐特征,并能够自然地注入到语言模型的输入序列中。
为了解决当前多模态数据集主要强调特定任务类型的限制,我们还创建了 Macaw-LLM 指令数据集。该数据集涵盖了各种不同类型的指令任务,并结合了多种数据模态,使其更加多样化,更适合用于多模态指令调优语言模型。
方法
如图所示,Macaw-LLM 包含以下三个主要模块:
模态模块:现有的语言模型主要专注于处理文本信息。为了融合视觉和音频等额外的模态数据,我们在 Macaw-LLM 中集成了额外的模态编码器。这样的增强使得 Macaw