论文阅读:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Abstract


方法:

一种新的对抗性损失函数以及新颖的多尺度生成器和判别器架构,生成了2048×1024分辨率的图像。
加入了两个用于交互式视觉操作的新功能。

  1. 整合了对象实例分割信息,使得能够进行对象的操作,例如移除/添加对象以及更改对象类别。
  2. 提出了一种方法,在相同输入下生成多样化的结果,允许用户交互式地编辑对象外观。

1. Introduction


讨论了一种新的方法,产生高分辨率图像的语义标签映射。
首先仅通过对抗性训练获得结果,而不依赖任何手工制作的损失或预先训练的网络进行感知损失。
然后,如果预训练网络可用,则添加来自预训练网络的感知损失可以在某些情况下略微改善结果。
利用实例级对象分割信息,将同一类别内的不同对象实例进行分割。
提出了一种方法来生成不同的结果,给定相同的输入标签映射,允许用户交互编辑相同对象的外观。

2. Related Work


Generative adversarial networks(生成对抗网络):

旨在通过强制生成的样本与自然图像不可区分来模拟自然图像分布。

Image-to-image translation(图像到图像的转换):

在给定输入输出图像对作为训练数据的情况下,将输入图像从一个域翻译到另一个域。
基于感知损失的直接回归目标,并生成了第一个能够合成2048×1024图像的模型。(高分辨率)

Deep visual manipulation(深度视觉操作):

基于GANs学习的先验知识的对象外观编辑优化方法。
专注于对象级语义编辑,允许用户与整个场景交互并操纵图像中的单个对象。
系统允许更灵活的操作,并产生实时高分辨率的结果。

3. Instance-Level Image Synthesis


提出了一个条件对抗框架,用于从语义标签地图生成高分辨率照片真实感图像。

3.1 The pix2pix Baseline——像素到像素基准模型


生成器G的目标是将语义标签图转换为逼真的图像,而判别器D的目标是区分真实图像与生成的图像。
训练数据集是由对应图像对{(si, xi)}组成的,其中si是语义标签图,xi是对应的自然照片。
输入语义标签图的真实图像的条件分布:
min⁡Gmax⁡DLGAN(G,D)\min_G \max_D L_{\text{GAN}}(G, D)GminDmaxLGAN(G,D)
目标函数:
LGAN(G,D)=E(s,x)[log⁡D(s,x)]+Es[log⁡(1−D(s,G(s)))]L_{\text{GAN}}(G, D) = \mathbb{E}_{(s, x)}[\log D(s, x)] + \mathbb{E}_s[\log(1 - D(s, G(s)))]LGAN(G,D)=E(s,x)[logD(s,x)]+Es[log(1D(s,G(s)))]
采用U-Net作为生成器,采用基于Patch的全卷积网络作为判别器。
输入判别器的是语义标签图和对应图像的逐通道拼接。

3.2 Improving Photorealism and Resolution——提高图片真实感和分辨率


Coarse-to-fine generator(粗糙到精细的生成器):

image.png
将生成器分解为两个子网络:G1 和 G2,生成器表示为一个元组 G = {G1, G2}。将 G1 称为全局生成器网络,将 G2 称为局部增强器网络。
全局生成器网络在 1024 × 512 的分辨率下运行,局部增强器网络输出的图像分辨率是前一网络输出的 4 倍(每个图像维度上增加 2 倍)。
为了生成更高分辨率的图像,可以使用额外的局部增强器网络。

全局生成器网络包含 3 个组件:卷积前端 G(F)1、一组残差块 G®1和反卷积后端 G(B)1。
局部增强器网络同样由 3 个组件组成:卷积前端 G(F)2、一组残差块 G®2 和反卷积后端 G(B)2。

G1 输入分辨率为 1024 × 512 的语义标签图,输出分辨率为 1024 × 512 的图像。
G2 输入分辨率为 2048 × 1024 的语义标签图,输入到残差块 G®2 的特征图是两个特征图的逐元素和:G(F)2 的输出特征图和全局生成网络 G(B)1 后端的最后一个特征图。这有助于将来自 G1 的全局信息整合到 G2 中,有效地整合全局和局部信息。

Multi-scale discriminators(多尺度判别器):

使用 3 个判别器,它们的网络结构相同,但在不同的图像尺度上运行,称为 D1、D2 和 D3。
将真实和合成的高分辨率图像分别按 2 倍和 4 倍的比例进行下采样,创建一个包含 3 个尺度的图像金字塔。
判别器 D1、D2 和 D3 分别在这 3 个不同的尺度上训练,以区分真实图像和合成图像。
运行在最粗尺度的判别器具有最大的感受野,对图像有更全局的视角,能够引导生成器生成全局一致的图像。
运行在最细尺度的判别器则专注于引导生成器生成更精细的细节。
这使得训练粗到细生成器变得更容易,因为将低分辨率模型扩展到更高分辨率只需在最细级别添加一个额外的判别器,而不必从头开始训练。

加入判别器后的公式:
min⁡Gmax⁡D1,D2,D3∑k=13LGAN(G,Dk)\min_G \max_{D_1, D_2, D_3} \sum_{k=1}^{3} \mathcal{L}_{GAN}(G, D_k)Gmin

### 研究背景与目标 在异常合成领域,现有的方法往往难以有效地合成面向分割的异常样本,且在合成效率和质量上存在一定局限。FAST旨在解决这些问题,通过结合前景感知机制和加速采样轨迹,为分割任务生成高质量的异常合成数据。 ### 核心方法 - **前景感知扩散**:该方法引入了前景感知机制,能够在扩散过程中更好地关注图像的前景区域。传统的扩散模型在合成过程中可能会对背景和前景一视同仁,而FAST能够根据前景信息调整扩散过程,使得合成的异常更符合前景的特征和结构,从而提高异常合成的质量和针对性,使其更适用于分割任务。 - **加速采样轨迹**:FAST设计了加速采样轨迹来提高合成效率。在扩散模型的采样过程中,通常需要进行多次迭代,这会导致合成速度较慢。通过优化采样轨迹,FAST减少了不必要的采样步骤,在保证合成质量的前提下,显著缩短了合成时间,提高了整体的合成效率。 ### 优势 - **高质量的异常合成**:由于采用了前景感知扩散,FAST能够生成与真实异常更为相似的合成样本,这些样本在前景区域的异常特征更加清晰和准确,为后续的分割任务提供了更有价值的训练数据。 - **高效的合成过程**:加速采样轨迹的使用使得FAST在合成速度上有了明显提升,能够在更短的时间内生成大量的异常样本,满足大规模数据训练的需求。 ### 应用场景 - **异常分割任务**:FAST生成的异常合成数据可以用于训练分割模型,帮助模型更好地识别和分割图像中的异常区域。在工业检测、医疗影像分析等领域,准确的异常分割对于故障诊断和疾病检测至关重要,FAST提供了一种有效的数据增强手段。 - **数据增强**:在数据有限的情况下,FAST可以通过合成异常样本扩充训练数据集,提高模型的泛化能力和鲁棒性。 ```python # 以下为示意代码,并非实际的FAST实现 # 假设存在一个FAST类 class FAST: def __init__(self, foreground_aware=True, accelerate_sampling=True): self.foreground_aware = foreground_aware self.accelerate_sampling = accelerate_sampling def synthesize_anomaly(self, image): if self.foreground_aware: # 实现前景感知扩散 pass if self.accelerate_sampling: # 实现加速采样轨迹 pass # 合成异常图像 synthesized_image = None return synthesized_image # 使用示例 fast = FAST() input_image = None # 假设为输入图像 synthesized = fast.synthesize_anomaly(input_image) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值