如何突破多模态数据瓶颈?阿里通义提出多模态指令进化方法MMEvol

c68d4fd856b233be7d50249eee5dc30c.gif

如何突破多模态数据瓶颈?通义实验室提出多模态指令进化方法 MMEvol,实现感知进化、推理进化、交互进化三个维度的同步提升。

相较开源多模态 SOTA 模型,在 13 个权威多模态评测集上的 ACC 平均提升了 3%。

00749daa3d54b5980aa5e05e20fc8a05.png

论文标题:

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

论文作者:

林廷恩,罗润,刘雄,武玉川,黄非,李永彬

论文链接:

https://arxiv.org/abs/2409.05840

项目主页:

https://mmevol.github.io/home_page.html

代码链接:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/mmevol/mmevol_sft_data

6e327c1a3097a06e60754ca92ba9666d.png

背景

随着多模态大语言模型(MLLM)的快速发展,视觉推理、多模态智能体等应用取得了显著进展。然而,随着任务复杂度的提升,模型面临着严峻挑战,特别是在高质量开源图文指令数据匮乏的情况下,模型训练效果受到了明显限制。为解决这一瓶颈,传统方法依赖大量人工标注,但成本极高,难以大规模应用。

最近,阿里通义实验室联合中科院等机构,推出了多模态指令进化方法 MMEvol(MMEvol-Empowering Multimodal Large Language Models with Evol-Instruct)。

该方法通过多轮进化迭代,可自动提升图文指令数据的质量和数量,相较于全开源的 SOTA 模型 Cambrain-1-8B,仅使用了 1/4 不到的 SFT 数据,在 13 个权威多模态评测集上的 ACC 平均提升了 3%,验证了方法的有效性

b73274ceacfca92ca77bbf1e23856b36.png

社区反馈

MMEvol 的代码和数据已开源,在学术界和工业界引起了广泛关注和讨论,获得了 HuggingFace Daily Paper 推荐。

be9a68a89a422b690c1cb841f0a948a6.png

在 Twitter 上引发了热烈的讨论与交流。

e8993a28158844baecc5c8bb993b4e7e.png

ca6a42c8e052c30a2229d4a2a22f521a.png

41c0e3f0561346c68101afc788610a24.png

a60bbc173772c2e5a2c6896cab27926c.png

9e39eaef6265e6ecaaadf5b0d6e72d18.png

方法概述

图文指令数据存在的核心问题

现有的图文指令数据存在以下三个主要问题:

1. 指令形式单一:手工标注的指令往往局限于标注者的思维方式,难以涵盖多样化任务需求。模型生成的指令则依赖预设模板,难以做到无限扩展,从而限制了模型的指令跟随能力。

2. 指令复杂度不足:标注者多偏向于创建简单或中等难度的问题,而模型自动生成的指令常表现为简短回答,缺乏视觉推理步骤,使模型难以应对真实世界的复杂任务。

3. 图文对齐粒度不足:现有指令数据多关注图像中常见的主要物体,忽视了小型或少见的物体,导致在视觉物体的长尾分布中,尾部物体相关问题稀少,限制了模型的视觉感知和抗幻觉能力。

此外,文本指令进化在数学推理、代码生成等领域已被广泛应用,但在多模态领域仍存在挑战。主要难点在于:

1. 浅层推理现象:图像相关的问题往往比较基础,多次进化后,数据可能只是简单的重写,无法进行深度进化。

2. 视觉内容限制:语言中心的问题受限于图像内容,多次进化可能产生与图像无关的数据,无法有效拓展。

为克服上述瓶颈,作者提出了“多模态指令进化(MMEvol)”框架,旨在通过多轮自动迭代演化,提升图文指令数据的质量和多样性。

核心创新点:

作者设计了三种精细的进化方向,来解决上述问题:

1. 细粒度感知进化:关注图像细节和易被忽略的元素,生成更丰富的指令数据,提升模型的视觉感知能力和鲁棒性。

2. 推理认知进化:生成具有更长视觉推理链的复杂指令数据,提升模型的视觉推理能力,扩展其在复杂任务中的应用。

3. 交互进化:打破指令形式的限制,自动生成各种新颖的指令形式,覆盖真实世界中更多的任务需求,增强模型的指令跟随能力。

在方法实现上,作者将输入图像抽象为场景图,其中图像中的物体作为节点,每个节点具有属性,节点之间的连接代表其相对关系。通过在场景图上进行不同的进化操作,从而生成多样化的指令数据。

a195947d03ca9968142b2e702feaf3be.png

种子数据

为了验证 MMEvol 的有效性,作者以 LLaVA-Instruct 和 ShareGPT4V 数据为基础,增加了科学问答、图表理解、代码生成和数学推理数据,最终构建了 163K 条种子数据集,分布如下:

dd37b7a46326c3b54123dcf13d2acfe6.png

进化示例分析:

f88c861546eff3b29d7f64876556cbcc.png

  • 细粒度感知进化:可以细化数据的对齐粒度,关注到更多不一样的细节问题,如球员的姿态和球衣号码等细粒度问题(图中红色标记)提升数据的多样性。

  • 认知推理進化:可以构造更为复杂的问题和拥有更多视觉推理步骤的答案(图中蓝色部分)。

  • 交互进化:扩展数据的指令形式,将对话问答变为新颖的指令任务,例如诗歌创作(图中绿色标记部分)。

e3725a5a968530652ca43feee37c65c3.png

实验

MMEvol 数据经过多轮进化后,在复杂度、细粒度和多样性方面明显提升。

复杂度提升:演化后数据在平均原子能力长度、视觉推理步数、难度分数等维度显著提升。

ac038064f0b3bc6a2851d60bdcffa588.png

  • 原子能力长度:演化后的指令数据的平均原子能力增加 0.68,最大原子能力长度从 2 提升到 6

  • 视觉推理步数:演化后的指令数据的平均视觉推理步数增加 0.86,最大视觉推理步数从 3 提升到 7

  • 难度分数:每轮演化后的数据的难度平均分数逐步提升,方差逐步缩小,多轮迭代可以稳定提升指令数据的复杂度。

长尾分布改善:演化后数据在视觉物体的长尾分布中显著改善,尾部物体出现频率增加。

bbb635ff7c23a6cc3b373c1d4d825cd1.png

指令形式多样性增加:词频统计表明,演化后数据涵盖了更多图文任务,指令形式更丰富。

8916ebc829b0e6d868cff419cda328e1.png

性能提升对比:实验表明,模型在视觉推理、指令跟随和抗幻觉能力方面表现出色,在 13 个权威多模态评测集上的 ACC 平均提升了 3%;

212cbfdda9dc28c139c6b990458a8d67.png

  • 权重开源模型对比:相比 MiniCPM-V2.5-8B,作者用更少的高质量数据实现了视觉推理(MMSInst)、指令跟随(MIA)和抗幻觉性能(HallBench)的显著提升。

  • 全开源模型对比:相比于全开源的先进模型 Cambrain-1-8B,即使数据全部采样于 Cambrain-1-8B 的训练数据,但是使用 MMEvol 对仅 1/4 不到的数据进行多模态指令进化后,却能取得全面领先的效果。

消融实验

b7259979709245f0e9d23de9785438c2.png

  • 作者针对细粒度感知进化(FP-Evol)、交互进化(I-Evol)、认知推理进化(CR-Evol)和指令消除(I-Elim)进行了消融实验。结果显示,三种进化方向可以正交叠加,协同提升多模态大语言模型能力。

  • 指令消除则过滤掉演化失败数据,进一步提纯数据的质量并提高模型抗幻觉能力。

c5f76b86d8e1c0be86b73fda1afab714.png

结论

多模态指令进化(MMEvol)通过细粒度感知、认知推理和交互进化三种策略,显著提升了多模态大语言模型的数据质量和多样性,突破了任务复杂度不足、指令形式单一等瓶颈。该方法减少了对手工标注的依赖,在 13 个多模态评测集上实现了性能提升,展现出优异的视觉推理、指令跟随和抗幻觉能力。

展望未来,作者计划进一步探索多模态协同进化,将图像、文本、音频等多模态信息更紧密地融合,以推动“智能飞轮”持续演进,提升模型在更广泛任务中的表现。这将有助于构建具备综合感知和推理能力的智能系统,推动 AI 技术向更高效、通用和自主的方向发展。

欢迎加入我们

阿里通义实验室-对话智能团队-招聘大语言模型算法专家/实习生

团队介绍

阿里巴巴通义实验室-对话智能团队,以大模型对话技术为核心,研究及应用方向包括智能客服、个性化对话、角色扮演、分身复刻、社交智能、数字人等,主要业务场景包括(1)通义晓蜜—阿里云智能客服,国内对话式 AI 市占率第一;(2)通义星尘-类人智能体创作平台。2020 年以来,围绕预训练、对话智能、大模型等方向发表 80 + 篇国际顶会论文,欢迎对大模型感兴趣的你加入我们,一起创造人机对话的未来。

团队 Google scholar:

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

工作地点

北京 & 杭州

招聘岗位

算法专家,Research Intern

岗位职责

1. 负责角色扮演技术(Role-Playing Agent)的研究和应用;

2. 负责分身复刻(Character AI)的研究和应用;

3. 负责多模态 Character 模型的研究和应用,推动端到端语音对话大模型的大规模落地应用;

4. 负责数字专家的研究和应用,包括用户心理推断、策略搜索推理等技术;

5. 将上述技术在通义晓蜜、通义星尘、阿里云百炼等大模型产品进行大规模应用落地,并探索新应用产品形态;

岗位要求

1. 在人工智能相关方向的硕士/博士,有扎实基础和丰富经验,有相关方向研究或应用者优先;Research Intern 需有至少一篇以上的顶会一作论文;

2. 热爱技术,乐于用创新技术解决业务问题,有大模型经验者优先;

3. 具备优秀的分析问题和解决问题的能力,以及良好的沟通协作能力;

4. 具备技术洞察力、业务敏感度和数据分析能力,能应对复杂业务的算法需求。

简历投递

ting-en.lte@alibaba-inc.com

邮件标题和简历标明:姓名-岗位名称-PaperWeekly

更多阅读

0415a7388b0f3fa09162f5420a7ade2f.png

72097acdc7baf69c09a6d2ef89bfb495.png

dc983199de36842a7504b3139f797bcd.png

52c4dabbc615c8e4a3c51092b60048f1.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

3eac8c4e27f096c178256cebcd3b2d21.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

33cb129c2fb2bbb0d62574e1e881fe98.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值