【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成，基于diffusion扩散/GAN生成对抗网络方法...

最新推荐文章于 2024-08-29 09:09:51 发布

机器学习与AI生成创作

最新推荐文章于 2024-08-29 09:09:51 发布

阅读量909

点赞数

分类专栏：扩散模型与GAN生成对抗网络文章标签： AIGC 生成对抗网络人工智能计算机视觉深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247499973&idx=1&sn=5ece2742fa2f865408a826133f1b10ad&chksm=fe2a627ec95deb68154becd197f0f74cc13dc0f7eacb461e01dc798a6da8b13940f7a19b7428&scene=126&sessionid=0

版权

扩散模型与GAN生成对抗网络专栏收录该内容

121 篇文章 127 订阅

订阅专栏

【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译，基于GAN生成对抗/diffusion扩散模型

【CVPR 2023的AIGC应用汇总(2)】可控文生图，基于diffusion扩散模型/GAN生成对抗

【CVPR 2023的AIGC应用汇总（3）】GAN改进/可控生成的方法10篇

【CVPR 2023的AIGC应用汇总(4)】图像恢复，基于GAN生成对抗/diffusion扩散模型

1、LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation

最近，扩散模型在图像生成方面取得了巨大的成功。然而，当涉及到布局生成时，由于图像通常包含多个物体的复杂场景，如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。

本文提出LayoutDiffusion扩散模型，可以获得比以前方法更高的生成质量和更大的可控性。为了克服图像和布局的难以多模态融合，提出构造具有区域信息的结构图像块，并将该图像块转换为特殊布局，以与普通布局统一形式进行融合。此外，提出了布局融合模块（Layout Fusion Module，LFM）和物体感知交叉关注（Object-aware Cross Attention，OaCA），用于对多个物体之间的关系进行建模，旨在具有物体感知和位置敏感性，可以精确控制空间相关信息。

大量实验表明，LayoutDiffusion在FID、CAS上相对于以前的SOTA方法分别提高了46.35%、26.70%在COCO-stuff上分别提高了44.29%、41.82%的性能。

代码在https://github.com/ZGCTroy/LayoutDiffusion

2、LayoutDM: Discrete Diffusion Model for Controllable Layout Generation

可控布局生成（Controllable layout generation），旨在生成元素边界框的合理排列，还要在可选的约束下，例如特定元素的类型或位置。

这项工作尝试在单个模型中解决广泛的布局生成任务，该模型基于离散状态空间扩散模型。模型名为LayoutDM，处理离散表示中的结构化布局数据，并逐步从初始输入推断出无噪声的布局，其中通过分模态离散扩散来模拟布局破坏过程。对于条件生成，在推断过程中以屏蔽或逻辑调整的形式注入布局约束。

实验结果表明，LayoutDM成功生成了高质量的布局，并在几个布局任务上优于特定任务和非特定任务的基线。

https://cyberagentailab.github.io/layout-dm/

3、PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout

内容感知的视觉-文本呈现布局旨在为预定义的元素（包括文本、标志和底层）在给定的画布上安排空间，这是自动无模板创意图形设计的关键。在实际应用中，如海报设计，画布最初是非空的，生成适当的布局时应同时考虑元素间关系和层间关系。近期的一些研究同时处理这两个问题，但仍然存在图形性能差的问题，如缺乏布局变化或空间不对齐。
由于内容感知的视觉-文本呈现布局是一个新的任务，首先构建了一个名为PKU PosterLayout的新数据集，它由9,974个海报布局对和905张图像，即非空画布组成。该数据集更具挑战性和实用性，具有更大的布局多样性、域多样性和内容多样性。
然后，提出了设计序列形成（DSF）方法，以模拟人类设计师的设计过程重新组织布局中的元素，并提出了一种基于CNN-LSTM的条件生成对抗网络（GAN）来生成适当的布局。具体来说，鉴别器是设计序列感知的，将监督生成器的“设计”过程。
实验结果验证了新基准的有用性和所提出方法的有效性，该方法通过为不同的画布生成适当的布局实现了最佳性能。数据集和源代码在 https://github.com/PKU-ICSTMIPL/PosterLayout-CVPR2023

4、Unifying Layout Generation with a Decoupled Diffusion Model

布局生成，旨在生成具有不同属性的元素的真实图形场景，包括类别、大小、位置和元素间关系。对于格式化场景（例如出版物、文档和用户界面（UI））来说，这是减轻图形设计工作负担的关键任务。在各种应用场景下统一各种布局生成任务，包括条件和非条件生成方面，提出了巨大的挑战。
本文提出一个名为LDGM（Layout Diffusion Generative Model）的布局扩散生成模型。LDGM将具有任意缺失或粗糙元素属性的布局视为从已完成布局的中间扩散状态。由于不同的属性具有其个体语义和特征，提出为它们分离扩散过程，以提高训练样本的多样性，并联合学习反向过程以利于生成全局范围上下文。
LDGM可以从头开始生成布局，也可以根据任意可用属性进行条件生成。广泛的定量和定性实验验证了提出的LDGM在功能和性能方面，均优于现有的布局生成模型。

5、Unsupervised Domain Adaption with Pixel-level Discriminator for Image-aware Layout Generation

布局对于图形设计和海报生成非常重要。最近，应用深度学习模型生成布局越来越受到关注。本文专注于使用基于GAN的模型，在图像内容的条件下生成广告海报的图形布局。
需要一个带有成对产品图像和图形布局的广告海报布局数据集。然而，现有数据集中的成对图像和布局是通过修补和标注海报收集的，存在修补海报（源域数据）和干净产品图像（目标域数据）之间的领域差距。因此，本文结合无监督的领域自适应技术，设计了一种具有新型像素级鉴别器（PD）的GAN，称为PDA-GAN，以根据图像内容生成图形布局。PD连接到浅层级别的特征图并计算每个输入图像像素的GAN损失。
定量和定性评估均表明，PDAGAN可以实现最先进的性能并为广告海报生成高质量的图像感知的图形布局。