今天给大家带来最近DeepSeek发布的最新大模型Janus-Pro,发布至今已经在Github上斩获 13.2K ⭐。
其中Janus-Pro 7B直接在理解和生成两方面都拳打LLaVA、脚踢Dalle 3、暴捶SD XL这样的顶级模型了,实在是过于强悍!
通过阅读技术报告,发现了Janus-Pro创新的思路就是——分工合作,正如论文名字中Janus是罗马神话中两面神的意思。
举个很简单的例子:
就好比餐馆专门请了两个师傅,一个擅长理解后厨的食材,另一个擅长理解顾客的要求。
他们把食材和顾客要求处理成厨师能看懂的食谱,然后交给后厨的 “大师傅”统一处理。
这样分工明确,避免了混乱,让多模态理解和生成任务能更好地进行。
【论文标题】
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
【论文链接】https://arxiv.org/pdf/2501.17811v1
源码见文末
1
摘要
Janus-Pro是之前 Janus 模型的进阶版本。
具体而言,Janus-Pro 融入了:
(1)优化的训练策略。
(2)扩展的训练数据。
(3)更大规模的模型。
通过这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟随能力方面取得了显著进展,同时还提高了文本到图像生成的稳定性。
本文希望这项工作能够激发该领域的进一步探索。
2
背景
统一多模态理解和生成模型领域近期取得显著进展,这些方法增强了视觉生成任务中的指令跟随能力,还减少了模型冗余。
多数方法使用相同的视觉编码器处理多模态理解和生成任务的输入,但这两个任务所需的表示不同,导致多模态理解性能欠佳。
Janus 模型提出解耦视觉编码,缓解了多模态理解和生成任务之间的冲突,在两个任务上都表现出色。
不过,Janus 在 10 亿参数规模下进行验证,由于训练数据量有限和模型容量较小,存在一些缺陷
比如在短提示图像生成上表现欠佳,文本到图像的生成质量不稳定。
因此,本文提出 Janus-Pro,从训练策略、数据和模型大小三个维度进行改进。
3
贡献
-
提出优化的训练策略,包括延长第一阶段训练步骤、调整第二阶段训练数据使用方式,以及改变第三阶段不同类型数据集的数据比例,提升了训练效率和模型性能。
-
扩展训练数据,在多模态理解和视觉生成方面分别增加大量样本,增强了模型处理多样任务的能力,提高了文本到图像生成的稳定性和美学质量。
-
将模型规模扩展到 70 亿参数,验证了该方法的强扩展性,相比小模型,在多模态理解和视觉生成任务中损失收敛速度更快。
4
技术方案
4.1 架构
Janus-Pro 的架构与 Janus 相同(图 3)。
整体架构的核心设计原则是解耦多模态理解和生成的视觉编码。
运用独立的编码方法将原始输入转换为特征,再由统一的自回归变压器进行处理。
多模态理解时,使用 SigLIP 编码器从图像中提取高维语义特征,将其从二维网格展平为一维序列,通过理解适配器映射到LLM的输入空间。
视觉生成任务时,使用 VQ 分词器将图像转换为离散 ID,展平为一维后,利用生成适配器将每个 ID 对应的码本嵌入映射到 LLM 的输入空间,连接这些特征序列形成多模态特征序列,输入 LLM 处理。
除 LLM 内置的预测头,视觉生成任务还使用随机初始化的预测头进行图像预测,整个模型遵循自回归框架。
4.2 优化的训练策略
Janus 之前的三阶段训练过程存在问题,如第二阶段对文本到图像能力的训练策略导致计算效率低下。
本文对此做出两点修改:
一是延长第一阶段训练,在 ImageNet 数据集上充分训练,即便 LLM 参数固定,模型也能有效建模像素依赖并生成合理图像;
二是在第二阶段放弃 ImageNet 数据,直接使用正常文本到图像数据训练模型基于密集描述生成图像,提高训练效率和整体性能。
同时,调整第三阶段监督微调过程中不同类型数据集的数据比例,从 7:3:10 调整为 5:1:4,在保持视觉生成能力的同时提升多模态理解性能。
4.3 数据扩展
在多模态理解和视觉生成方面均扩展了训练数据。
多模态理解中,第二阶段预训练数据参考 DeepSeekVL2 添加约 9000 万个样本,包括图像字幕数据集、表格图表和文档理解数据;
第三阶段监督微调数据也加入了 DeepSeek-VL2 的其他数据集,如 MEME 理解、中文对话数据等,丰富了模型处理任务的能力和对话体验。
视觉生成中,Janus 之前使用的真实世界数据质量欠佳且有噪声,导致文本到图像生成不稳定。
Janus-Pro 引入约 7200 万个合成美学数据样本,统一预训练阶段真实数据与合成数据比例为 1:1,实验表明使用合成数据训练模型收敛更快,生成的图像更稳定且美学质量更高。
4.4 模型扩展
Janus 使用 15 亿参数的 LLM 验证了视觉编码解耦的有效性,Janus-Pro 将模型扩展到 70 亿参数。
实验观察到,使用更大规模的 LLM 时,多模态理解和视觉生成的损失收敛速度比小模型显著提升,进一步验证了该方法的强扩展性。
5
实验结果
多模态理解性能
在多个广泛认可的基于图像的视觉语言基准测试中评估 Janus-Pro,包括 GQA、POPE、MME 等(见表 3)。
结果显示 Janus-Pro 取得总体最佳成绩,这得益于其对多模态理解和生成的视觉编码解耦,缓解了两个任务间的冲突。
与参数规模大得多的模型相比,Janus-Pro 也极具竞争力,例如 Janus-Pro-7B 在除 GQA 外的所有基准测试中均优于 TokenFlow-XL(130 亿参数)。
视觉生成性能
在 GenEval 基准测试中评估文本到图像的生成能力(见表 4),Janus-Pro-7B 总体准确率达到 80%
超越了所有其他统一模型或仅用于生成的模型,如 Transfusion、SD3-Medium 和 DALL-E 3 等,这表明该模型具有更好的指令跟随能力。
在 DPG-Bench 基准测试中(见表 5),Janus-Pro 得分为 84.19,超过所有其他方法,证明 Janus-Pro 在遵循密集指令进行文本到图像生成方面表现出色。
定性结果
Janus-Pro 在处理多模态理解任务时展现出强大的理解能力(见图 4)。
在文本到图像生成方面,Janus-Pro-7B 生成的图像高度逼真,尽管分辨率仅为 384×384,但仍包含大量细节。
对于富有想象力和创造性的场景,该模型能准确捕捉提示中的语义信息,生成合理连贯的图像。
6
结论
本文从训练策略、数据和模型大小三个方面对 Janus 进行了改进。
这些改进使 Janus-Pro 在多模态理解和文本到图像的指令跟随能力上取得了显著进展。
然而,Janus-Pro 仍存在一定局限性。
在多模态理解方面,输入分辨率限制在 384×384,影响了其在 OCR 等细粒度任务中的性能。
对于文本到图像生成,低分辨率加上视觉分词器引入的重建损失,导致生成的图像虽然语义内容丰富,但仍缺乏精细细节
例如在有限图像空间中的小面部区域可能细节不足。提高图像分辨率可能会缓解这些问题。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓