[paper阅读笔记][CVPR2024]NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on ......

瘦小星

已于 2024-07-24 21:08:17 修改

阅读量1.1k

点赞数 26

分类专栏： paper阅读笔记文章标签：笔记人工智能计算机视觉

于 2024-07-24 21:07:19 首次发布

本文链接：https://blog.csdn.net/Xysxx/article/details/140673032

版权

10 篇文章 0 订阅

订阅专栏

[title]NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging

Paper的任务

实现布局感知的文本到图像生成（Layout-aware text-to-image generation），即生成考虑文本描述和布局条件的多目标图像。

如何有效地利用文本和布局信息来生成高质量的多对象图像，同时避免文本和布局条件之间的不匹配（attention manipulation的局限性）以及生成图像质量的下降（iterative editing的局限性）。

显示的图像与文本和布局条件之间的不匹配：传统的注意力操纵方法和迭代编辑方法在处理文本和布局条件时经常出现不匹配的情况。这会导致生成的图像与输入条件不完全吻合，影响了生成图像的质量和准确性。
图像质量下降：在迭代编辑方法中，随着迭代次数增加以展示更多的对象，图像质量往往会出现下降的情况。这限制了模型生成高质量图像的能力。

为了解决目前的布局感知文本到图像扩散模型的两种局限性，生成更符合输入条件的高质量图像。

- 在去噪过程中，通过预先训练的UNet模型来估计每个时间t的噪声，每个对象区域的噪声以及全局噪声被剪切并合并以生成整体噪。
- 改进UNet交叉注意层（a “masked” cross-attention layer）控制和在对象区域内的权重分布，在估计噪声时将图像特征关联到文本条件。

框架图
- 噪声是从中裁剪指定的区域，然后将裁剪后的N个区域合并
- NoiseCollage分为Crop-and-Merge Operation of Noises和Masked Cross-Attention
- Masked Cross-Attention将文本和图像特征关联操作分解为指定区域和剩余区域两部分
结果

- 定性评估：与Collage Diffusion（迭代编辑模型）比较，图像质量得到提升；与Paint-with-words模型比较，在长文本的情况下，Paint-with-words不能正确生成图像，NoiseCollage可以
- 定量评估：使用CLIP的编码器计算生成图像与布局和文本条件之间的相似度，证明NoiseCollage在满足条件要求方面表现更好

Crop-and-Merge操作：NoiseCollage引入了crop-and-merge操作，通过独立估计每个对象的噪声，并将这些噪声进行合并，实现对多对象图像生成过程的布局控制。这种操作方法是与传统方法不同的创新设计，可以帮助生成准确且高质量的图像。
Masked Cross Attention：引入了masked cross attention机制，旨在更准确地估计反映文本条件周围区域的噪声，从而提高图像生成的精确度和一致性。
可以与ControlNet集成

UNet：用于图像分割的深度学习架构，包括对称的编码器（下采样路径）和解码器（上采样路径）部分，但具有跳跃连接（skip connections）的特点：

- 编码器：通过卷积和池化操作逐渐减小特征图的尺寸和通道数，提取图像的高级特征。
- 解码器：通过上采样和跳跃连接结合编码器部分的特征，逐步恢复分割图像的细节信息。
- 跳跃连接：将编码器中相应层的特征映射与解码器中相应层的特征映射连接在一起，有助于保留更多的空间信息和细节，提高分割性能。

关注