ST-GAN: Spatial Transformer Generative Adversarial Networks for Image Compositing 原文翻译-CSDN博客

本文链接：https://blog.csdn.net/tommorrow12/article/details/89289078

ST-GAN是一种使用空间变换器网络（STN）作为生成器的生成对抗网络，旨在解决图像合成中的几何校正问题，使其在合成到背景图像时显得自然。通过迭代几何校正和顺序对抗训练，ST-GAN能学习到逼真的几何变换，适用于高分辨率图像。实验表明，ST-GAN在室内家具合成和眼镜合成任务中表现出色，提高了图像合成的真实性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ST-GAN：用于图像合成的空间变换器生成敌对网络

目录

摘要

1.介绍

2.相关工作

3.方法

3.1、迭代几何校正

3.2、顺序对抗训练

3.3、敌对目标

4.实验

4.1、3D立方体

4.2、室内物体

4.3、眼镜

5.结论

论文地址

摘要

我们解决了向前景对象发现真实几何校正的问题，使得它在合成到背景图像时显得自然。为了实现这一目标，我们提出了一种新型的生成对抗网络（GAN）架构，该架构利用空间变换器网络（STN）作为发生器，我们称之为空间变换器GAN（ST-GAN）。ST-GAN通过在几何扭曲参数空间中操作寻求图像真实感。特别是，我们利用迭代STN变形方案，并提出了一种顺序训练策略，与单个发生器的天真训练相比，可获得更好的结果。ST-GAN的关键优势之一是它能够间接适用于高分辨率图像，因为预测的扭曲参数可以在参考帧之间转换。我们在两种应用中展示了我们的方法：（1）可视化室内家具（例如从产品图像中）如何在房间中感知，（2）幻想如何配戴真正的肖像时眼镜配件的外观。

1.介绍

生成图像建模随着卷积神经网络（CNN）的出现而显着发展。大多数方法通过学习低维嵌入作为自然图像子空间的编码并且由此在像素级进行预测来约束图像内可能的外观变化。我们在这里将这些方法称为直接图像生成。生成敌对网络（GANs）[7]尤其证明是一种用于逼真图像生成的特别有力的工具。它们包括一个由代码产生图像的发生器网络（G）和一个区分真实图像与伪造图像的鉴别器网络（D）。这两个网络发挥一个极小极大游戏，导致G产生逼真的图像，而D在达到平衡时无法区分这两者。

直接图像生成，但是，有其局限性。由于所有图像的空间都非常高，而且图像生成方法受限于有限的网络容量，所以直接图像生成方法目前只能在受限域（例如人脸）或低分辨率下正常工作。

图1：由于外观和几何差异，复合图像容易落在自然图像流形之外。我们试图学习几何校正，使复合图像依次朝向几何图像和自然图像流形的交集。

在这项工作中，我们利用空间变换网络（STNs）[11]，这是一种特殊类型的CNN，能够对图像进行几何变换，以提供一种更简单的方式来生成逼真的图像 - 通过限制可能的输出空间 - 定义真实图像的低维几何变换。我们提出空间变换器生成敌对网络（ST-GANs），它学习GAN框架内的空间变换发生器。对抗性的损失使我们能够学习几何校正，从而导致位于自然图像人与几何流形的交集处的扭曲图像 - 特定于目标图像的几何操作空间（图1）。为了实现这一目标，我们提倡采用顺序对抗训练策略来学习迭代空间变换，这些变换将大型变换分解为更小的变换。

我们评估上下文图像合成中的ST-GAN，其中源空间变换发生器G对源前景图像及其掩模进行变形，并且由鉴别器D评估所得到的合成图像。在这个设置中，D试图从实际图像中区分翘曲的复合材料，而G试图通过生成尽可能逼真的复合材料来愚弄D。据我们所知，我们首先通过GAN框架中的几何变换来解决逼真的图像生成问题。我们演示了将合成家具应用于室内场景的这种方法，例如，预览了购买物品在房屋中的外观。为了在这个领域进行评估，我们创建了一个室内场景图像的综合数据集作为背景，以蒙版对象作为前景。我们还展示了ST-GAN在完全不成对的设置中用于在肖像图像上合成眼镜的任务。大规模的用户研究表明，我们的方法提高了图像合成的真实性。我们的主要贡献如下：

2.相关工作

图像合成指的是在背景图像顶部覆盖掩模前景图像的过程。图像合成的主要挑战之一是前景物体通常来自与背景不同的场景，因此它不可能以多种方式与背景场景相匹配，这会对合成物体的真实性产生负面影响。这些可以是外观差异（由于照明，白平衡和阴影差异）和几何差异（由于相机视点和对象定位的变化）。

现有的照片编辑软件具有各种图像外观调整操作，使用户可以创建逼真的复合图像。先前的工作试图通过泊松混合[26]或更近期的深度学习方法[42,30]来自动化外观校正（例如对比度，饱和度）。在这项工作中，我们专注于第二个挑战：纠正源图像和目标图像之间的几何不一致。

空间变换网络（STN）[11]是将学习型图像变形纳入深度学习框架的一种方法。Spatial Transformer模块由一个子网络组成，预测一组warp参数，后面跟着一个（可微分）warp函数。

已经显示STN在解决差别化任务的几何变化方面以及广泛的扩展应用（例如鲁棒滤波器学习[4,13]，图像/视图合成[41,6,24,37]和3D表示学习[14,35,40]。最近，逆向组合STN（IC-STN）[17]提出了一种迭代对齐框架。在这项工作中，我们借用迭代翘曲的概念，但不强制在几何预测网络中重现;相反，我们在顺序训练方案的每个变形步骤中添加不同的生成器。生成对抗网络（GANs）[7]是通过在发生器网络G和鉴别器网络D之间进行极小极大值优化游戏而学习的一类生成模型。通过这种对抗过程，GAN被证明能够学习与给定数据收集的经验分布相匹配的生成分布。GAN的一个优点是，损失函数本质上是由鉴别器网络学习的，该鉴别器网络允许在具有强大监督的地面真实数据不可用的情况下进行培训。

GAN用于各种领域的数据生成，包括图像[27]，视频[31]和3D体素化数据[33]。特别是对于图像，已经显示在各种各样的条件图像生成问题中产生引人注目的结果，诸如超分辨率[16]，修补[25]，图像 - 图像平移[10,44,19]和图像编辑/操作[43]。

最近，STN也被试图进行对象检测的对抗训练[32]，其中产生了具有特征变形的对抗性例子以强化物体检测器。LR-GAN [36]通过在（直接）生成的图像上附加STN来处理直接图像生成问题，以分解形状变化。我们在给定输入的条件图像生成空间中探索带有GAN的STN的上下文，这是两个框架更直接的整合。