Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

图片

来源:机器之心
本文共1100字,建议阅读5分钟Harmon探索在统一的视觉表征上协调图像理解和生成。

吴思泽,南洋理工大学MMLab@NTU四年级博士生,导师是Chen Change Loy,研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等,在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。

图片

  • 论文标题:

    Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

  • 论文链接: 

    https://arxiv.org/abs/2503.21979

  • 代码地址: 

    https://github.com/wusize/Harmon

  • 项目主页:

    https://wusize.github.io/projects/Harmon

  • 在线 Demo:

  •  https://huggingface.co/spaces/wusize/Harmon

1. 背景:统一多模态理解生成

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。从视觉表征的维度看,现有的统一模型通常采用如下三种范式:

(1)理解生成统一使用 CLIP/SigLIP 表征,并使用 Diffusion Model 将视觉表征解码成图像,如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互,本质上是将 LLM 输出的 embeddings 作为生成 condition。

(2)理解生成统一使用 VQGAN/VAE 表征,如 Transfusion、Show-o、ViLA-u 等,由于 VQGAN/VAE 用于图像压缩,主要表征纹理等细节,缺乏视觉语义的建模,此类方法通常理解能力偏弱。

(3)解耦理解生成表征,理解任务使用编码高层语义的 CLIP/SigLIP,生成任务使用 VQGAN,如 Janus、UniFluid 等。

2. 协调理解和生成的视觉表征

不同于 Janus 割裂理解和生成的视觉编码,Harmon 探索在统一的视觉表征上协调图像理解和生成。

(1)MAR 的启发

图片

图一:Linear Probing 和特征图激活

MAR 作为一种基于图像掩码建模的生成范式,沿袭了表征学习 MAE 的 Encoder-Decoder 框架,Harmon 的作者们发现 MAR Encoder 在图像生成训练中,同时学会对视觉语义的建模。如图一所示,MAR 的 Linear Probing 结果远超 VQGAN、VAE,同时对视觉语义概念有更精确的响应。

(2)Harmon:理解生成共享 MAR Encoder

图片

图二: Harmon 框架图

Harmon 框架如图所示,通过共享 MAR Encoder 同时促进理解和生成:

i)图像理解:MAR Encoder 处理完整图像,LLM 根据图像内容和用户指令输出文本。

ii) 图像生成:沿用 MAR 的掩码建模范式,MAR Encoder 处理可见(已经生成)的图像内容,LLM 中实现模态交互,MAR Decoder 预测剩余的图像内容。

(3)Harmon 的三阶段训练

i)模态对齐:第一阶段对齐 MAR 与 LLM,冻结 LLM 参数,仅训练 MAR Encoder 和 Decoder。

ii)联合训练:在大规模图文数据上联合训练,并更新所有模型参数。

iii)高质量微调:最后一个阶段使用高质量数据微调,并将图片分辨率从 256 提升至 512。

3. 实验结果:理解生成两开花

(1)Harmon 在多模态理解基准上,取得接近 Janus-Pro 的效果

图片

(2)在文生图基准上,Harmon 优势显著

i) 在图像生成美学基准如 MJHQ-30K 上,Harmon 大幅领先同类的统一模型,并接近或超过文生图专家模型如 SDXL。

图片

ii) 在衡量指令跟随和一致性的 GenEval 基准上,Harmon 大幅领先所有专家模型和统一模型。

图片

iii) 同时,Harmon 能在文生图中更好地利用多模态大模型的世界知识,在 WISE benchmark 上远超 Janus 等统一模型。 

图片

(3) 协同生成理解

实验中,相较于解耦理解生成的视觉编码器(图三d),Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标(图三b),显示出统一视觉表征对于生成理解协同进化的巨大潜力。

图片

图三:理解生成的相互作用

4.可视化效果

图片

编辑:于腾凯

校对:李享沣

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值