智源「悟道3.0」Emu模型开源，「多模态-to-多模态」全能高手

最新推荐文章于 2025-05-18 20:17:36 发布

智源研究院官方账号

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量404

点赞数

文章标签：人工智能 ai 开源

本文链接：https://blog.csdn.net/eagleofstar/article/details/132186014

版权

智源研究院的Emu模型超越DeepMind的Flamingo，实现了通用的多模态学习，支持图像、文本和视频生成及理解，通过视频数据的大量采用和统一学习框架，提升了模型的泛化能力和应用范围。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首个打通从多模态输入到多模态输出的「全能高手」，统一多模态预训练模型 Emu 开源，来自智源研究院「悟道·视界」研究团队。

超越了此前 DeepMind 的多模态大模型 Flamingo，Emu 刷新8项性能指标；并且模型能力覆盖图像与文本的生成及视频理解，更通用，能完成任意图生文以及文生图的多模态任务。

这一突破来自于 Emu 创造性地建立了多模态统一学习框架与视频数据的大量采用，最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全，即对于任意模态进行下一步自回归预测。

论文链接：

https://arxiv.org/pdf/2307.05222.pdf

模型链接：

https://github.com/baaivision/Emu

Demo链接：

https://emu.ssi.plus/

作为一种通用界面，Emu可用于多种视觉、语言应用。

超越 Flamingo、Kosmos，8项基准测试表现优异

在8个涵盖多模态图像/视频和语言任务的基准测试中，Emu 均有不俗表现，对比来自DeepMind 的 Flamingo 与来自微软的 Kosmos 亦有所超越。

Emu 在众多常用测试基准上表现出极强的零样本性能，展现了模型在遇到未知任务时强大的泛化能力。其中，Emu 在图像描述 COCO Caption 的 CIDEr 得分为112.4，且模型对图片的描述中包含丰富的世界知识。此外，Emu在图像问答 VQAv2 和视频问答 MSRVTT 数据集上也展现了强劲的视觉问答功能。

表1 Emu和Emu-I（Emu-I是经过指令调整的Emu模型）的多模态理解性能

同时，Emu具备强大的少样本上下文学习能力，即对于给定任务提供几个示例样本，模型可以进行上下文学习从而更好地完成任务。Emu在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA上的少样本上下文学习表现突出。

表2 在few-shot (k = 2,4,8)推理设置下，Emu在图像问答和视频问答任务中的表现

全能高手：在多模态序列中进行「图文任意模态生成」

Emu模型能力覆盖图像与文本的生成及视频理解，相比其他多模态模型更具通用性，能完成任意图生文以及文生图的多模态任务。例如，精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。Emu是一个基于 Transformer 的多模态基础模型，可以接受并处理形式各异的多模态数据，输出指定的多模态数据。从图文对、图文交错文档、交错视频文本等形式各异的海量多模态序列中进行学习与训练后，Emu能对任意形式的多模态上下文序列进行多模态补全，对图像、文本和视频等多种模态的数据进行感知、推理和生成。

视频理解、多模态上下文生成、多模态对话是 Emu 模型的技术亮点。

Emu 模型具有强大的视频理解能力，如在下图演示中，针对下面“视频中的女主人公在干什么”这一问题，Emu 模型给出了具有精准事实细节（苹果VR设备）、连贯动作描述（坐在飞机上并使用VR设备）、合理行动猜测（可能在看一段视频或360度视角的飞机外景象）的丰富回答。

Emu 不只能理解视频信息，还能做到对视频中时序信息的精细理解。例如下图展示的奶昔制作视频，Emu 分步且完整地描述了奶昔制作步骤。

Emu 新增了图像融合能力，可以对输入的图像进行创造性地融合，并生成新的图片。例如下图最后一行，将两幅世界名画作为输入，Emu 可以生成风格、元素类似的全新画作：

上下文图像生成也是一项全新的功能，Emu 可以将输入的文本-图片对作为 prompt，结合上下文信息进行图片生成。例如在下图第一行，输入两张图片，并输入文本指令让Emu 生成以图1的动物为中心，但以图2为风格的图片。依赖于强大的多模态上下文生成能力，Emu可以完成相应的指令。下图的第二行展示了如果在“文生图”时提供了context，Emu 会结合context 的风格，生成油画风格的图片，而相同的文本在无context 的情况下进行“文生图”只会生成现实风格的图片：

图像生成方面，Emu 可以根据给定的文本生成多幅语义相关的图像：

Emu 可根据一张或者多张图或视频进行问答和多轮对话。如下第一张图所示，给出一张景点图并询问旅游注意事项，Emu 给出了5个要点，其中再就第5个要点 “ safety equipment”提问时，Emu 能够针对这一点进行更加详细地阐述。最后，Emu 还可以根据图片作诗。

Emu 还有一项突出的能力是它的世界知识更丰富。如下图所示，给出两张动物的图，询问这两张图的区别，Emu 可以准确描述动物的名称及分布地：

Emu 模型可以准确识别画作，例如下图输入莫奈的《日出·印象》这幅作品， Emu 不仅准确回答出了作品的名字，描述了画面信息，还给出了很多背景知识，例如这是著名印象派风格的作品。而 mPLUG-Owl 、LLaVA 并不知道画作的名称，只是简单描述了画中场景。InstructBLIP 给出了作品名称和描述，但在背景知识上略逊于 Emu。

再看下图，给出阿加莎·克里斯蒂的肖像，问题是“说出这位女性写的8本书并推荐一本给我”，Emu 正确理解了这个问题，识别出作者并列出其8个作品，并从中挑选了伟大的代表作推荐。LLaVA 人物识别准确，只部分理解了题意，给出推荐作品，但并没有给出8个代表作。mPLUG-Owl 识别出了人物，也是部分理解了问题，只给出了4部作品和一句话简介。InstructBLIP 则给出了一个错误答案。