Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

数据派THU

于 2025-05-25 17:01:59 发布

阅读量10

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657190&idx=2&sn=1eec83b29a40f37226ce8759c3111a24&chksm=e8c455bda0b05ceb72704489a113e5efd4bf8866f8d6755b345506bc702850543639c33a4ea7&scene=126&sessionid=0

版权

来源：机器之心
本文共1100字，建议阅读5分钟Harmon探索在统一的视觉表征上协调图像理解和生成。

吴思泽，南洋理工大学MMLab@NTU四年级博士生，导师是Chen Change Loy，研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等，在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。

论文标题：
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
论文链接:
https://arxiv.org/abs/2503.21979
代码地址:
https://github.com/wusize/Harmon
项目主页：
https://wusize.github.io/projects/Harmon
在线 Demo:
https://huggingface.co/spaces/wusize/Harmon

1. 背景：统一多模态理解生成

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。从视觉表征的维度看，现有的统一模型通常采用如下三种范式：

（1）理解生成统一使用 CLIP/SigLIP 表征，并使用 Diffusion Model 将视觉表征解码成图像，如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互，本质上是将 LLM 输出的 embeddings 作为生成 condition。

（2）理解生成统一使用 VQGAN/VAE 表征，如 Transfusion、Show-o、ViLA-u 等，由于 VQGAN/VAE 用于图像压缩，主要表征纹理等细节，缺乏视觉语义的建模，此类方法通常理解能力偏弱。

（3）解耦理解生成表征，理解任务使用编码高层语义的 CLIP/SigLIP，生成任务使用 VQGAN，如 Janus、UniFluid 等。

2. 协调理解和生成的视觉表征

不同于 Janus 割裂理解和生成的视觉编码，Harmon 探索在统一的视觉表征上协调图像理解和生成。

（1）MAR 的启发

图一：Linear Probing 和特征图激活

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。如图一所示，MAR 的 Linear Probing 结果远超 VQGAN、VAE，同时对视觉语义概念有更精确的响应。

（2）Harmon：理解生成共享 MAR Encoder