[论文翻译]:Spatial Transformer Generative Adversarial Networks for Image Compositing(STN-GAN)

在这里插入图片描述

0 摘要

我们解决的问题是找到对前景对象的逼真的几何校正,以使其在合成为背景图像时看起来自然。为此,我们提出了一种使用STNs的新的GAN( Generative Adversarial Network)结构,我们称之为ST-GAN。ST-GAN通过在geometric warp parameter space空间中进行操作来寻求图像逼真度。ST-GAN的主要优势之一是其间接适用于高分辨率图像,因为预测的warp parameter可在参考帧(reference frame)之间传递。我们在两种应用中演示了我们的方法:(1)可视化如何在房间中感知室内家具;(2)讲解与真实肖像相匹配时眼镜之类的配件的外观

1 Intro

随着卷积神经网络的出现,生成图像建模取得了显著的进展。大多数方法都是通过学习将低维嵌入作为自然图像子空间的编码,并在像素级别从中进行预测来限制图像中可能出现的外观变化。我们将这些方法称为直接图像生成法。GAN是生成真实图像的有力工具。GAN包括可以从编码生成图像的生成器 G G G,以及一个能从区分虚假图片和真实图片的鉴别网络 D D D。这两个网络进行着minmax博弈,直到G生成了D无法分辨真伪的真实图片,从而达到平衡。

但是,直接的图像生成是有局限的。包含所有图片的空间的维度是非常高的,但是图像生成方法的网络容量是有限的,因此目前来看直接网络生成的方法只在有限的领域起作用(如人脸),且分辨率很低。

在这个工作中,我们利用STN来生成真实的图片。STN可以将可能的输出限制在一个定义良好的真实图片的低维几何变换中。将ST与GAN结合,我们提出了ST-GAN。对抗过程中的loss允许我们学习几何校正,导致warped image处在自然图像流形(manifold)和几何图像流形的交叉处。如下图(图1)所示:
在这里插入图片描述
为了实现这一点,我们主张采用序列的对抗性训练策略来学习iterative spatial transformations,从而将大的transformations分解为较小的transformations。

我们在上下文图像合成中评估ST-GAN,其中源前景图像及其蒙版由Spatial Transformer生成器G扭曲,而生成的合成物由鉴别器D评估。在这种设定下,D尝试将扭曲的合成与真实图像区分开,而G尝试通过生成尽可能逼真的合成来欺骗D。我们在将家具组合到室内场景中的应用中演示了这种方法,该方法可以预览例如购买的物品在房屋中的外观。 为了在此领域进行评估,我们创建了室内场景图像的合成数据集,以背景为背景,以蒙版对象为前景。我们还演示了在完全未配对(unpaired)的环境中执行ST-GAN的任务,该任务用于在人像图像上合成眼镜。 一项大规模的用户研究表明,我们的方法改善了图像合成的真实性。

我们主要的贡献如下所示:
1.提出一种新的GAN结构——ST-GAN
2.设计了一种多级结构和训练策略,改善了ST-GANs的收敛性
3. 我们展示了在配对和未配对设置中图像合成任务的引人注目的结果,以及它对高分辨率图像的适用性

2 相关工作

图像合成(Image compositing)指的是将前景图像的蒙版覆盖在背景图像的顶部的过程。图像合成的主要挑战之一是前景对象通常来自与背景不同的场景,因此它不太可能以多种方式与背景场景相匹配,从而对合成的真实性产生负面影响。这些困难可以是外观差异(由于照明,白色平衡和阴影差异)和几何差异(由于相机视点和物体定位的变化)。

现有的照片编辑软件具有各种图像外观调整操作,允许用户创建真实的复合材料。以前的工作试图通过泊松混合(Poisson blending)对外观进行自动化更正,现在也有一些深度学习的方法。在这篇论文中,我们将致力于解决第二个挑战:纠正源图像和目标图像之间的几何不一致。

Spatial Transformer Networks (STNs)是一种将可学习的图像扭曲纳入深度学习框架的方法。 空间变压器模块由一个子网络组成,预测一组翘曲参数,然后是一个(可微)翘曲函数。

STN在很多方面取得了广泛的应用,例如鲁棒滤波器学习、图像/视图综合、3D表示学习。最近,IC-STN提出了一种迭代的对齐框架。在本工作中,我们借用了iterative warping的概念,但在几何预测网络中不强制使用递归;相反,我们在每个warping step中添加了不同的生成器,并采用了序列(sequential)的训练方案。

Generative Adversarial Networks (GANs)是一类生成模型,它通过在生成器网络G和鉴别器网络D之间的极小极大最优化博弈进行学习。通过这种对抗性过程,GANS被证明能够学习与给定数据收集的经验分布相匹配的生成分布。GANs的一个优点是,损失函数基本上是由鉴别器网络学习的,即使没有没有强监督和ground truth data的情况下,它也允许进行训练。

GANs可以被用于不同领域的数据生成,包括图像、视频、3D体素化数据(voxelized data)。特别地,在图像生成领域,GAN在各种条件的图像生成问题中都产生了引人注目的结果,例如超分辨率、图像修复、图像到图像的翻译、图像编辑/操作。

最近,STN被用于对抗性的目标检测网络中,其中产生了具有特征变形的对抗性例子以强化物体检测器。LR-GAN通过在直接生成的图像上附加STN来解决直接图像生成问题,以分解形状变化。我们在给定输入的条件图像生成空间中探索带有GAN的STN的上下文,这是两个框架更直接的整合。

3. Approach

我们的目标是给定背景图像IBG和前景对象IFG以及相应的掩膜MFG,进行图像合成的逼真几何校正。我们的目标是校正前景物体的相机视角,位置和方向,以使得生成的复合物看起来自然。合成过程可以表示为:
在这里插入图片描述
为了简单起见,我们进一步引入了表示合成的符号⊕来代表合成。给定 I F G I_{FG} IFG合成参数 p 0 p_0 p0(定义为初始warp state),我们可以把(1)式写成:

在这里插入图片描述
其中图像被写作warp parameter的函数。此运算符如图2所示。
在这里插入图片描述
在这项工作中,我们将我们的geometric warp function限制为单应变换(homography transformations,其实就是透射变换),它可以表示大多数平面或小扰动物体的近似三维几何校正。因此,我们假设前景对象的透视图接近正确的透视图;当人们选择相似但不完全相同的图像来合成前景对象时,通常会出现这种情况。

我们网络的核心模块是STN,其中几何预测网络 G G G预测修正参数 Δ p 1 \Delta p_1 Δp1。我们在背景图像和前景图像上都设置了G,因为知道如何变换对象以适合背景场景需要了解两者之间的复杂相互作用。这包括对象和背景场景的几何形状,相对摄像机位置以及对现实对象布局的语义理解(例如,在房间中间有一个窗口是没有意义的)。

3.1. Iterative Geometric Corrections

从图像像素中预测大位移warp parameter是非常具有挑战性的,因此大部分以前的图像对准工作都是以迭代方式预测局部几何变换。同样,我们建议使用迭代STN来预测一系列warp更新,如图2(c)所示。在第i次迭代中,给定输入图像 I I I和前一个warp state p i − 1 p_{i-1} pi1,修正warp update和new warp state可写为
在这里插入图片描述

其中 G i ( ) {G_i}\left( {} \right) Gi()为几何预测网络,○是warp parameter的组合。 这一系列迭代STN保留了原始图像,使其免受由于多个翘曲操作而丢失信息。

3.2. Sequential Adversarial Training

为了让STN学习更接近自然图像流形的映射图像的几何翘曲,我们将它们集成到一个GAN框架中,我们称之为ST-GAN。这么做的动机有两个。首先,学习真实的几何校正是一个多模态问题(multi-modal)(例如。 床可以合理地存在于房间的多个地方);第二,这些翘曲参数的监督通常是不可行的。ST-GANs与传统GANs的主要区别在于(1) G G G生成一组低维warp parameter并不断对其进行更新,而不是更新整个图像(整组像素值);(2) D D D获得与背景合成的扭曲前景图像作为输入。

为了学习对自然图像流形的渐进几何改进,我们采用了迭代STNs的连续对抗训练策略(图3),其中几何预测器 G G G对应生成器 G i G_i Gi的堆栈。
在这里插入图片描述
我们从训练 G 1 G_1 G1开始。每一个接下来的生成器 G i G_i Gi被添加训练,此时之前所有的生成器的权重 { G j } j = 1 ⋯ i − 1 {\left\{ {{G_j}} \right\}_{j = 1 \cdots i - 1}} {Gj}j=1i1都是固定的。因此,我们只训练 G i G_i Gi D D D,通过将生成的组合图 I c o m p ( p ⃗ i ) {I_{comp}}\left( {{{\vec p}_i}} \right) Icomp(p i)输入到鉴别器 D D D当中,并将其与实际数据分布相匹配。这种学习哲学与监督相下降法有共性。在监督下降法中,一系列线性回归器被贪婪地解决,我们发现它使整体训练更快、更健壮。 最后,我们对整个网络端到端进行微调,以达到我们的最终结果。 请注意,我们对生成器 G i G_i Gi的所有阶段使用相同的鉴别器 D D D,因为“geometric fakeness”的度量是不会随着迭代而改变的。

3.3. Adversarial Objective

我们将Wasserstein GAN (WGAN)的目标函数作为我们这个任务优化指标。 我们注意到ST-GAN可以接受任何其他GAN变体,而GAN体系结构的选择与这项工作是正交的(潜台词:无关的)。

第i阶段的WGAN极小极大目标是:
在这里插入图片描述
其中 y = I r e a l y = {I_{real}} y=Ireal x = I c o m p x = {I_{comp}} x=Icomp从真实数据和虚假组合分布中提取的。空心的D是加上了梯度惩罚项 L g r a d L_{grad} Lgrad的1-Lipschitz函数的集合。此处的 p i p_i pi(其中暗含了 G i G_i Gi)是从以 p i − 1 p_{i-1} pi1为条件的后验分布中提取( 递归地暗示)。 当 i = 1 i=1 i=1时,初始翘曲 p 0 p_0 p0是从 P p e r t P_{pert} Ppert中提取的, P p e r t P_{pert} Ppert是用于几何数据增强的预定义分布。

我们还通过引入一个额外的惩罚 L u p d a t e = ∥ Δ p i ∥ 2 2 L_{update}=\left\| {\Delta {p_i}} \right\|_2^2 Lupdate=Δpi22,将翘曲更新 Δ p i \Delta p_i Δpi限制在信任区域内。这个惩罚项是必不可少的,因为ST-GAN可能会学习一些琐碎的解决方案来删除前景(例如, 通过将其翻译到图像之外或将其缩小为零),只留下背景图像,进而使复合图像接近真实。

当按顺序训练ST-GAN时,我们通过交替各自的损失函数更新 D D D G i G_i Gi
在这里插入图片描述
其中 λ g r a d λ_{grad} λgrad λ u p d a t e λ_{update} λupdate分别是 D D D梯度和warp update ∆ p i ∆p_i pi的惩罚权重, G i G_i Gi ∆ p i ∆p_i pi暗含在其中。当微调ST-GAN与N学习更新端到端时,生成器的目标是每个 G i G_i Gi的总和,即损失函数为在这里插入图片描述

4. Experiments

暂略,后续有时间更新。这里只放论文图片了。
在这里插入图片描述

4.1. 3D Cubes

4.2. Indoor Objects

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3. Glasses

在这里插入图片描述
在这里插入图片描述

5. Conclusion

我们引入了ST-GANs作为几何写实模型的一类方法。 我们已经证明了ST-GANs在图像合成任务上的潜力,在大规模渲染的数据集中显示了改进的真实感,以及在完全未配对的真实世界图像数据上的结果。 我们希望这项工作将为研究界开辟新的收入,以便继续朝这个方向探索。

尽管ST-GAN取得了令人鼓舞的成果,但仍有一些局限性。 我们发现,当提供不平衡的数据时,ST-GAN遭受更多的痛苦,特别是罕见的例子(例如。 眼镜实验中的白色厚框眼镜)。 此外,我们还发现STGAN的收敛性在物体更极端的平移或平面内旋转时会失败。 我们认为,未来对经典图像对齐方法与GAN框架的收敛性进行分析,对于提高ST-GANs的鲁棒性是值得研究的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值