（2025|DeepSeek，增强的 Janus）Janus-Pro：通过数据和模型扩展实现统一的多模态理解和生成

EDPJ，公众号（EDPJ）

已于 2025-03-26 11:30:07 修改

阅读量961

点赞数 22

分类专栏：论文笔记文章标签：计算机视觉深度学习语言模型

于 2025-03-26 11:29:30 首次发布

本文链接：https://blog.csdn.net/qq_44681809/article/details/146498789

版权

356 篇文章

订阅专栏

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

本文提出了 Janus 的增强版本 Janus-Pro，旨在提升多模态理解和文本生成图像的能力。Janus-Pro 在三个维度上进行了改进：训练策略、数据扩展和模型规模扩展。与 Janus 相比，Janus-Pro 不仅显著提升了模型在理解和生成任务上的表现，还增强了文本生成图像的稳定性。

采用统一视觉编码策略，会在理解和生成任务中存在目标冲突，导致性能下降。为解决此问题，Janus 首创了解耦视觉编码机制。Janus-Pro 在此基础上进一步优化，扩展了训练数据和模型规模。

图 1：Janus-Pro 的多模态理解与视觉生成结果。

在多模态理解任务（a）中，我们对 POPE、MME-Perception、GQA 和 MMMU 四个基准的准确率取平均值。其中，MME-Perception 的得分被除以 20，以统一缩放至 [0, 100] 区间。
在视觉生成（b）方面，我们基于两个文本生成图像的指令跟随基准（GenEval 和 DPG-Bench）对模型进行评估。
总体来看，Janus-Pro 的性能优于以往的统一多模态模型以及部分专用任务模型。

Janus-Pro 延续了 Janus 的核心架构设计，即将多模态理解与图像生成的视觉编码过程进行解耦。整体流程如下：

图像理解任务使用 SigLIP 编码器（Und. Encoder）将图像转化为高维语义特征，再通过 “理解适配器（understanding adaptor）” 将其映射到语言模型（LLM）的输入空间。
图像生成任务采用 VQ Tokenizer （Gen. Encoder）将图像编码为离散 ID 序列，再通过 “生成适配器（generation adaptor）” 将其嵌入至 LLM 的输入空间。
最终，所有特征（包括图像特征和文本 token）拼接为统一的多模态序列，输入至一个自回归 Transformer 中。
模型包含两个预测头：一个是 LLM 内建的语言预测头，另一个为图像预测任务专设的随机初始化预测头。

该架构既保持统一模型处理多任务，又通过编码器解耦避免了任务冲突。

原始 Janus 使用三阶段训练流程，但存在第二阶段训练效率低下的问题，Janus-Pro 进行了以下优化：

阶段 I：延长训练步数

阶段 II：聚焦真实文本到图像数据

阶段 III：调整监督微调数据比例

Janus-Pro 在数据层面进行了显著扩展：

多模态理解数据扩展：

在第二阶段预训练中，引入了 DeepSeek-VL2 的约 9000 万样本：包括 YFCC 图像标题（caption）数据集、Docmatix 文档理解、表格与图表数据等。
在第三阶段监督微调中，新增：MEME 理解数据、中文对话数据、提升对话体验的数据集等。
整体提升了模型的语义理解、多语言支持与任务泛化能力。

图像生成数据扩展：