提高专业生产力，让你的AI画作布局可控，360 AI研究院开源新模型HiCo-CSDN博客

©作者 | 360人工智能研究院AIGC团队

AI 绘画模型一直以来被概括为“文生图”模型，究其原因，是因为当前的主流图像生成模型基本都只提供了基于文本条件生成图像的能力，各家的 AI 绘画产品也主要在生成画质和文本理解能力上进行竞争。但对于专业的使用者来说，文本能提供的画面控制能力非常有限，导致当前的 AI 绘画产品还达不到作为专业生产力工具来使用的标准。

为了解决这一问题，360 人工智能研究院在人工智能顶会 NeurIPS 2024 上提出了布局可控 AI 绘画模型 HiCo，并将于近期开源。基于 HiCo 模型，使用者可以对生成画面中的不同主体的布局进行自由控制和调整，实现“指哪打哪”的生成效果。

论文标题：

HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation

论文链接：

https://arxiv.org/abs/2410.14324

项目主页：

https://360cvgroup.github.io/HiCo_T2I/

话不多说，先让我们来看一组生成效果（使用者基于不同的矩形框和对应的文本描述，来控制在画面的不同位置生成指定的内容）：

接下来是 HiCo 工作的详细原理解读。

摘要

布局到图像生成的任务是 AIGC 领域一项重要研究方向，通常指根据实例对象的文本描述及其空间位置合成目标图像。现有的方法仍然难以生成复杂的布局，常见的不良情况包括对象丢失、光影不一致、视角冲突、重叠区域的目标交互等。

为了有效地解决这些问题，我们提出了一个层次可控（HiCo）扩散模型，具有对象分离的条件分支结构。我们的主要观点是通过布局的层次化建模来实现空间分离。我们使用多分支结构来表示层次内容，并将它们聚合到融合模块中。

动机

主流的布局可控生成是采用新设计网络结构或特殊的交叉注意力机制，来实现目标的位置可控，然而在复杂场景下这些方法存在目标丢失、指令遵循能力下降、生成图像失真、推理资源消耗过大以及开源社区生态适配等问题。

如何在保证原始扩散模型能力的不变的同时，引入布局子区域的位置可控能力是我们面临的首要挑战。典型的引入外部可控条件进行图像生成的方法，如 ControlNet、IP-Adapter 等，其外部可控条件不限于人体姿态、关键点、参考图。

为了解决上述挑战，本文提出了层次可控扩散模型，本方法通过权值共享的分支分别提取层次化布局特征，并用融合网络进行精细聚合。

方法

3.1 模型整体架构

针对上述问题挑战，结合目前扩散模型外部控制条件引入的常用方法，本文提出一种名为 HiCo 的分层可控扩散模型（Hierarchical Controllable Diffusion Model），用于从布局生成高质量和逼真的图像。

HiCo 的整体架构如图 1 所示，包括主干 SD 基础模型、权重共享的旁支网络 HiCo 以及融合模块 FuseNet。

▲ 图1：分层布局可控生成模型 HiCo 结构

3.2 层次化建模及融合模块

为了兼具扩散模型的能力，同时引入布局可控的能力，研究者提出了 HiCo 方法。该方法通过层次化建模解耦不同目标的空间布局，并动态整合背景信息和不同前景目标的内容及交互。

朴素的扩散模型的目标函数如下式：

引入外部控制条件的扩散模型目标函数如下式，给定输入图片，通过渐进式扩散加噪到，其中为加噪步数，为文本控制条件，为特定控制条件，为可学习的网络来预测不同阶段的噪声。

相对于包含常规控制条件的扩散模型，本方法新增额外的权重共享的 HiCo Net 来生成全局背景和不同布局区域内容，由于增加了多个不同的控制条件，则训练目标为：

其中，、代表第个实例的文本描述和空间位置，代表融合模块。

融合模块主要实现对前背景的有效融合，可根据具体的场景选择适合的融合方式，包括平均、求和、掩码加权等。本文采用基于mask融合方式如下式，其中表示第个实例的掩码信息，表示背景区域的掩码信息。

3.3 分层特征可视化

HiCo 在整体结构上采用了一种创新的权重共享机制，该机制能够根据文本描述和空间布局信息，分别解耦不同的前景实例和背景图像生成独立的特征，在上采样阶段对这些特性进行了战略性集成。图 2 展示了四个实例布局的 HiCo 模型的生成过程。

▲ 图2：HiCo模型分层特征的可视化

3.4 训练数据及策略

HiCo 模型可以采用不同类型场景的 Grounding 数据训练来获取相应的布局可控生成能力。本文在开集的细粒度描述数据（GRIT-20M）以及闭集的粗粒度类别数据（COCO）上均进行了实验验证。其中我们对 GRIT-20M 的子集数据进行清洗筛选出 1.2M 的训练数据，并构建了细粒度的评估集 HiCo-7K。

HiCo 结构支持不同版本扩散模型，包括但不限于 SD1.5、SDXL、SD3、Flux 等。同时我们支持 SD 模型的快速生成插件或者底模，如 LoRA、LCM、SDXL-Lighting 等。详细训练及推理细节可参考原文。

实验评估

4.1 效果评估

细粒度描述定量评估。在细粒度测试集 HiCo-7K 上，对图片生成质量及布局可控两个维度进行了定量评估。HiCo 模型均取得显著的效果，同时不同目标数量的复杂场景图片生成效果也非常理想。

▲ 图3：HiCo-7K 定性比较。HiCo 方法可以生成简单和复杂布局信息的高质量图像。

人工评估。我们采用多轮、多参与者交叉评价的方法，从目标数量、空间位置、全局图像质量等方面对人类偏好进行评价。下表为不同对比方法的人工评估指标，结果表明在空间位置和语义维度方面，HiCo 方法优于其他模型。

此外，在全局图像质量的细粒度维度上，它的性能接近 RealisticVisionV51 模型（SDReal），表明尽管增强了可控性，但我们的模型的生成能力仍然是鲁棒和有效的。

4.2 消融实验

本文对 HiCo 结构、融合策略等进行了一系列消融实验，具体结果可以看下面的表格。

4.3 推理效率

对于推断运行时间和内存使用，我们进行了两个维度比较，详细数据图 4。横向比较不同方法的性能差异，我们评估了使用 24GB VRAM 3090 GPU 在 HiCo-7K 上直接生成 512×512 分辨率图像的推断时间和 GPU 内存使用情况。

HiCo 的多分支有两种推理模式：“并行模式”和“串行模式”。为了验证 HiCo 在对象数量增加时的性能优势，纵向比较 HiCo 不同推理模式的性能差异，我们评估了在 HiCo-7K 上生成 512×512 分辨率图像的推理时间和 GPU 内存使用情况。结果表明 HiCo 模型推理方式灵活，在推理耗时和显存占用方面均具有明显优势。