论文粗读系列-12：LayerDiff_layer diffusion的论文-CSDN博客

本文链接：https://blog.csdn.net/ileln/article/details/136905811

论文粗读系列-12

LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model

1.简介

arxiv [Submitted on 18 Mar 2024]

链接：[2403.11929] LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model (arxiv.org)

尽管基于扩散的生成模型成功地生成了给定任何文本提示的高质量图像，但先前的作品直接生成了整个图像，而不能提供对象智能操作能力。为了支持更广泛的实际应用，如专业平面设计和数字艺术，图像经常在多个图层中创建和操作，以提供更大的灵活性和控制。因此，本文提出了一种层协同扩散模型，命名为LayerDiff，专门用于文本引导、多层、可组合的图像合成。可合成图像由一个背景层、一组前景层和每个前景元素的相关蒙版层组成。为了实现这一点，LayerDiff引入了一个基于层的生成范例，该范例结合了多个层协作关注模块来捕获层间模式。具体来说，层间注意模块旨在鼓励层间的信息交换和学习，而文本引导的层内注意模块则包含特定于层的提示，以指导每层的特定内容生成。特定于层的提示增强模块可以更好地从全局提示捕获详细的文本线索。此外，自掩模引导采样策略进一步释放了模型生成多层图像的能力。我们还提出了一个整合现有感知和生成模型的管道，以产生高质量，文本提示的多层图像的大型数据集。大量的实验表明，作者的LayerDiff模型可以生成高质量的多层图像，其性能与传统的全图生成方法相当。此外，LayerDiff支持更广泛的可控生成应用，包括特定图层的图像编辑和样式转移。

作者介绍了LayerDiff，这是一种层协同扩散模型，它采用层协同关注块进行层间和层内信息交换。特定于层的提示增强模块通过利用全局文本线索进一步优化内容生成。
作者提出自掩模引导采样，通过在采样过程中利用中间层掩模预测来细化生成结果，进一步引导模型生成高质量的多层图像。
作者引入了一个数据构建管道，为LayerDiff生成多层可组合图像，集成了图像字幕，对象定位，分割和绘图等最先进的技术

2.方法

在这里插入图片描述

多层可合成图像包括一个背景层、一组前景层和相应的图层蒙版。图层图像、图层蒙版和颜色相同的图层提示符属于同一图层。文本引导的多层可组合图像合成是在全局提示控制整体内容，层提示控制每层内容的指导下，同时生成层图像和层蒙版。它能够通过根据蒙版组装这些图层来合成整个图像。

在这里插入图片描述

LayerDiff在全局提示符和图层提示符的指导下，同时生成图层图像和图层蒙版，实现多层可合成图像。特定于层的提示增强程序确保层文本条件，以指导每个层中的内容生成。在层协同扩散模型中，层协同注意块学习跨层关系，并向模型中注入文本引导信号。

如图所示，作者的LayerDiff设计包括图像编码器、文本编码器、特定于层的提示增强器和层协同扩散模型。使用图像编码器V将层图像和层掩码从RGB空间转换为隐空间。请注意，作者通过将一个通道重复到三个通道来将图层蒙版视为RGB图像。对全局提示符c和特定于层的提示符p应用文本编码器T，分别获得全局文本条件T (y)和层文本条件{T (pi)}。请注意，每个提示符都由文本编码器单独编码。为了保证各层提示信息的完备性和可控性，提出了分层提示增强器。在层协同扩散模型中，利用全局文本条件和增强的层文本条件指导多层可组合图像的生成，既控制整体内容的生成，又控制各层内容的生成。层协同扩散模型的灵感来源于stable diffusion中的网络设计。继最初的注意力块执行全局提示的引导之后，作者的LayerDiff引入了层协同注意力块来学习层间的连接，并指导各个层的内容生成。对于层协同扩散模型的输入，我们沿着通道维度将潜在图像和潜在掩模串联起来，并在层维度上叠加所有层潜变量。

Layer-Collaborative Attention Block Layer。协同注意块是多层可合成图像的关键组成部分，协调各层之间错综复杂的相互作用，指导各层特定内容的生成。如图所示，层协同注意块在结构上由层间注意模块、文本引导的层内注意模块和前馈网络(FFN)组成。层间注意模块专门用于跨层学习。它处理层隐藏状态的每个像素值，捕捉层之间的关系和依赖关系，确保合成图像在其深度上保持一致性和和谐。当涉及到特定于层的内容生成时，文本引导的层内注意力模块起主导作用。在层文本条件的指导下，它确保图像的每一层都与特定的文本描述对齐，从而允许精确和上下文相关的分层图像合成。FFN进一步处理和精炼注意力模块的输出。

在这里插入图片描述

(a) UNet注意块通常用于传统UNet块中基于条件的全图生成。(b)为了更好地捕捉分层特征，作者引入了层协同注意力块，它包含了一个文本引导的层内注意力模块来指导层内内容的生成，以及一个层间注意力模块来实现跨层交互。©特定层提示增强器旨在更有效地允许特定层提示从全局提示中吸收信息

Layer-Specific Prompt Enhancer。特定于层的提示增强器是一个模块，旨在通过从全局提示中提取和集成相关信息来改进和增强特定于层的提示。它可能确保在多层合成过程中更准确和详细地指导单个层的生成。如图（c）所示，首先将自关注层应用于特定层的提示，增强提示之间的差异性，进一步保证了层与层之间内容的独立性。此外，交叉关注层同时将特定层的提示作为查询，将全局提示作为键和值，旨在使特定层的提示能够从全局提示和层间对象关系中捕获更丰富的上下文信息。

Self-Mask Guidance Sampling。在生成多层可组合图像的采样阶段，模型可能难以生成特定于层的内容。为了提高多层图像生成的效果，受Self-Attention Guidance Sampling[的启发，作者提出了Self-Mask Guidance (SMG) Sampling，在采样过程中利用预测的图层蒙版，更好地促进模型专注于生成每一层内的内容。

在这里插入图片描述