单一模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！-CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/147156188

文章链接：https://huggingface.co/papers/2504.02160
arXiv链接:https://arxiv.org/pdf/2504.02160
代码链接：https://github.com/bytedance/UNO
项目网页：https://bytedance.github.io/UNO/

亮点直击

提出了模型-数据协同进化范式，突破了传统定制化图像生成中数据瓶颈的限制。

开发了渐进式数据生成框架和通用定制化模型UNO，实现了从单主体到多主体的高质量图像生成。

在多个任务中取得了卓越的性能，包括单主体和多主体驱动的图像生成，并且能泛化到id、tryon、style等场景

总结速览

解决的问题

数据瓶颈：高质量、多视角主体一致的配对数据难以获取，限制了模型的可扩展性。
主体扩展性：现有方法主要针对单主体生成，难以处理复杂且种类丰富的多主体场景。

提出的方案

提出了模型-数据协同进化范式，通过Text-to-Image(T2I) 模型生成更好的单主体定制化数据，进而训练更强大的Subject-to-Image（S2I）模型用于生成质量高、种类丰富的多主体数据。
开发了渐进式数据生成框架和通用定制化模型UNO，实现从单主体到多主体的高质量图像生成。

应用的技术

基于当前最先进的T2I模型FLUX，改进其成支持多条件生成的S2I模型。
渐进式跨模态对齐：通过逐步训练实现多图像条件的处理。
通用旋转位置嵌入（UnoPE）：解决多图像条件下的属性混淆问题。

达到的效果

在DreamBench和多主体生成基准测试中，UNO在一致性和文本可控性方面均取得了最佳性能。
显著减少了“复制-粘贴”现象，提高了生成图像的质量和可控性。
极佳的泛化能力，能覆盖换装、人物保持、风格化等个性化生成

方法

上下文数据生成框架

单主体配对数据生成：通过预定义的文本模板和LLM构建分类树，生成多样化主题和场景描述，利用DiT上下文生成能力直接生成主题一致的图像对，构建VLM打分器进行过滤
多主体配对数据生成：基于单主体数据训练的Subject-to-Image(S2I)模型，用开集检测得到另一新主体反向生成定制化数据，从而构建多主体一致的图像对，避免“复制-粘贴”问题。

同时，作者在论文中也做了充足实验说明了层级数据过滤的重要性和有效性。

渐进式训练策略

DiT模型最初是为纯T2I设计的，其输入是文本提示和噪声图像的嵌入。然而，当尝试引入多图像条件（如参考图像）时，直接输入多图像可能导致模型训练不稳定或性能下降。这是因为多图像条件的引入会改变模型的收敛分布，导致模型难以适应复杂的输入。为了克服这一问题，论文提出了渐进式跨模态对齐的训练方法，分为两个阶段：

单主题训练阶段（Stage I）
- 目标：让模型学会处理单图像条件的输入，生成与参考图像一致的结果。
- 方法：使用单主体数据对对预训练的T2I模型进行微调。输入包括文本提示、噪声图像嵌入和单一参考图像嵌入。
- 效果：通过这一阶段，模型能够理解如何将参考图像的信息融入生成过程中，生成与参考图像一致的单主体图像。

多主题训练阶段（Stage II）
- 目标：让模型学会处理多图像条件的输入，生成与多个参考图像一致的结果。
- 方法：在单主题训练的基础上，进一步使用多主体数据对进行训练。输入包括文本提示、噪声图像嵌入和多个参考图像嵌入。
- 效果：通过这一阶段，模型能够处理多个参考图像的输入，并生成与所有参考图像一致的多主题图像。