Pixel-Level Domain Transfer 和 GAN

学习报告 1

生成对抗网络

Generative Adversarial Network

(参考:GAN综述 GAN简易说明 GAN简易代码

GAN 有两个网络,一个是 生成器generator,一个是鉴别器
discriminator,从二人零和博弈中受启发,通过两个网络互相对抗来达到最好的生成效果。

相比于其他生成式模型,GAN有两大特点:

  • 不依赖任何先验假设。传统的许多方法会假设数据服从某一分布,然后使用极大似然去估计数据分布。

  • 生成real-like样本的方式非常简单。GAN生成real-like样本的方式通过生成器(Generator)的前向传播,而传统方法的采样方式非常复杂。


隐变量 z z z(通常为服从高斯分布的随机噪声)通过Generator生成 X fake X_{\text{fake}} Xfake,鉴别器负责判别输入的data是生成的样本 X fake X_{\text{fake}} Xfake还是真实样本 X real X_{\text{real}} Xreal。优化的目标函数如下:

在这里插入图片描述
对于鉴别器D来说,这是一个二分类问题, V ( D , G ) V(D,G) V(D,G)为二分类问题中常见的交叉熵损失。对于生成器G来说,为了尽可能欺骗D,所以需要最大化生成样本的判别概率 D ( G ( z ) ) D(G(z)) D(G(z)),即最小化
log ⁡ ( 1 − D ( G ( z ) ) ) \log\left( 1 - D\left( G\left( z \right) \right) \right) log(1D(G(z)))(注意: log ⁡ ( D ( x ) ) \log\left( D\left( x \right) \right) log(D(x))一项与生成器G无关,所以可以忽略)

实际训练时,生成器和鉴别器采取交替训练,即先训练D,然后训练G,不断往复。值得注意的是,对于生成器,其最小化的是 max ⁡ D V ( D , G ) \max_{D}V(D,G) maxDV(D,G),即最小化 V ( D , G ) V(D,G) V(D,G)的最大值。当生成器G固定时,我们可以对 V ( D , G ) V(D,G) V(D,G)求导,求出最优判别器 D ∗ ( x ) D^{*}\left( x \right) D(x):
在这里插入图片描述
把最优判别器代入上述目标函数,可以进一步求出在最优判别器下,生成器的目标函数等价于优化 P data ( x ) P_{\text{data}}(x) Pdata(x), P g ( x ) P_{g}(x) Pg(x)的JS散度(JSD, Jenson Shannon Divergence)。

可以证明,当G,D二者的capacity足够时,模型会收敛,二者将达到纳什均衡。此时 P data ( x ) = P g ( x ) P_{\text{data}}(x)=P_{g}(x) Pdata(x)=Pg(x),判别器不论是对于 P data ( x ) P_{\text{data}}(x) Pdata(x) 还是 P g ( x ) P_{g}(x) Pg(x) 中采样的样本,其预测概率均为 1 2 \frac{1}{2} 21,即生成样本与真实样本达到了难以区分的地步。

像素级图像域转换网络

Pixel-Level Domain Transfer

(Github项目地址 1 2

该论文提出一个图像条件图像生成模型。该模型在语义级别上将输入域转换到目标域,并在像素级别上生成目标图像。为了生成逼真的目标图像,采用了像在生成对抗网络GAN中一样的real/fake鉴别器,但是还引入了一种新颖的域鉴别器,以使生成的图像与输入图像相关。作者制定了一项任务来验证模型,该任务是根据穿着者的输入图像生成一件对应的衣服。最终成功展示了不错的结果,并提供了包含两个领域的高质量服装数据集。

该论文的贡献包括:

  1. 提出了第一种在像素级别上,从源域到目标域按语义关系进行转换的框架。

  2. 提出一种新颖的鉴别器,使我们能够训练域之间的语义关系。

  3. 建立一个包含两个领域的大型服装数据集,这有望为广泛的领域适应性研究做出贡献。

本文的重点在于使机器能够将视觉输入转换为不同形式,并通过生成像素级图像来可视化这些形式。

图像生成已经在许多工作中进行了尝试,例如在使用神经网络降低数据的维数(生成降维后的图片,这些图片非常模糊),Deep Boltzmann Machines以及使用降噪自动编码器提取并组合鲁棒特征等。但产生逼真的图像一直具有挑战性,因为图像本身是高维,并且具有像素之间的复杂关系。然而,随着深度学习的大幅进步,一些研究成功地创造了逼真的图像,例如生成对抗网络绘图:用于图像生成的递归神经网络使用非平衡热力学的深层无监督学习以及使用空间LSTM进行生成图像建模等。尽管这些作品在图像生成方面与PixelDTGAN相似,但在图像条件图像生成方面却与众不同。PixelDTGAN将图像作为位于域中的条件输入,然后重新绘制位于另一个域上的目标图像。

在这项工作中,有两个域被定义,分别是源域和目标域。这两个域通过语义连接。例如,如果我们将穿着打扮的人的图像定义为源域,则此人的衣服定义为目标域。转换图像域到不同的图像域已经在计算机视觉(例如基于细粒度服装属性的深域自适应人物描述方法(从数据库中检索匹配结果而不是直接产生图像),用于对象识别的域自适应:无监督方法具有双重属性感知排名网络的跨域图像检索所见非所得:使用非对称内核变换的域自适应使用卷积神经网络学习和传输中级图像表示使视觉类别模型适应新领域等)中被提出,但所有这些修改发生在特征空间,即模型参数被调整。但是,PixelDTGAN直接产生目标图像。

将源域中的知识转移到像素级目标图像上,同时克服了这两个域之间的语义鸿沟。传输的图像应看起来逼真,但保留语义。为此,作者提出了一个像素级域转换器,该转换器由一个用于源代码语义嵌入的编码器和一个用于生成目标图像的解码器组成。但是,训练转换器并不是一件容易的事,因为这里的目标域是最低像素级别的图像空间,而不是高级语义特征空间,目标不是确定性的,可能的目标数量是无限的,如图1所示。

图1. 一个实例,显示了像素级域转换问题中目标图像的不确定性。

图2. 像素级域转换的整体结构

定义一个名为转换器 C C C的传递函数, Θ C \Theta^{C} ΘC是转换器 C C C的模型参数。我们的任务是将一个来自源域的图像转换为一个属于目标域的图像。为了实现这个目的,作者为转换器 C C C采用了卷积网络模型,并采用监督学习以优化模型参数 Θ C \Theta^{C} ΘC。在训练数据中,每个源图像应该与真实的目标图像相关联。

图2顶部的网络显示了作者建议的转换器的体系结构。转换器是一个统一的网络,可以端到端训练,但是我们可以将其分为两个部分。编码器和解码器。编码器部分由五个卷积层组成,以将源抽象为语义64维代码。由于我们的源域(例如,自然时尚图像)和目标域(例如,产品图像)在语义内容(例如,产品)中配对,因此这种抽象过程非常重要。64维代码应捕获源的语义属性(例如类别,颜色等),以将其很好地解码为目标。然后,由解码器提供代码,该解码器通过五个解码层构造相关目标。每个解码层进行步长卷积,其中卷积沿相反方向运行。

表1. 每个网络的详细信息。在(a)中,{ . }中的每个条目都对应于每个网络。L-ReLU是leaky-ReLU。在(b)中,F表示步长。第一层中的激活是重塑为 4*4*1024尺寸大小,然后被送到第二层。

给定转换器后,损失函数的一种简单选项是训练它的均方误差(MSE)。但MSE并不适合当前的问题,原因有二:

  1. MSE不适合用于自然图像的像素级监督。论文超越均方误差的深度多尺度视频预测中提到,MSE容易产生模糊图像,因为它固有地假定数据来自高斯分布,并在多模态分布下效果不佳。而自然图像中的像素事实上是从复杂的多模态分布下得来的。

  2. 如图1所示,一个源图像对应的目标不是唯一的,目标域中的衣服以各种形状被捕捉,而这些目标都是正确的。除了形状以外,目标图像还能以不同视角被捕捉,导致出现几何变换。而最小化MSE总是会强迫转换器对应唯一的结果。使用MSE进行图像到图像的训练绝不允许出现小的几何错位以及各种形状。因此,用MSE训练转换器不是解决此问题的正确方法。

在转换器的顶部,放置着一个作为损失函数起作用的鉴别器网络,该鉴别器网络的构造与生成对抗网络中的鉴别器构造一样,它通过real/fake来监督转换器产生符合实际的图像。假设输入为 I I I,该鉴别器的损失函数 L R D L_{R}^{D} LRD定义如下:

在这里插入图片描述

目标图像的真实性虽然得到了保障,它与原图的相关性却不能确保。为此,作者提出了域鉴别器,如图2底部所示,它以一对源图像与目标图像作为输入,并产生输入对是否关联的标量概率。

假设有一个源 I S I_{S} IS,其ground truth目标为 I T I_{T} IT,有一个无关目标 I T − I_{T}^{-} IT。我们从转换器 C C C推论出了 I ^ T {\hat{I}}_{T} I^T。定义域鉴别器的损耗为 L A D L_{A}^{D} LAD。则:

在这里插入图片描述

仅当源和其ground truth目标配对为输入时,才能训练域鉴别器产生高概率,而在其他情况下则使概率最小化。

现在我们有两个鉴别器,real/fake鉴别器和域鉴别器,分别定义了 L R D L_{R}^{D} LRD L A D L_{A}^{D} LAD两个损失函数。利用这两个损失函数,我们遵循生成对抗网络的对抗训练程序。

对抗训练的过程如算法1所示。首先训练鉴别器。先用目标批次训练real/fake鉴别器,以减少损失 L R D L_{R}^{D} LRD。再使用源批次和目标批次对域鉴别器进行训练,以减少损失 L A D L_{A}^{D} LAD。之后,我们冻结更新的鉴别器参数,并优化转换器参数以增加两个鉴别器的损耗。

算法1. 像素级域转换的对抗训练

转换器的损耗函数可以表示为:

在这里插入图片描述

在实验中,作者采用的基线与该论文实验方法的记号与描述如下:

记号描述
C+RF仅使用real/fake鉴别器训练的转换器
C+MSE仅经过均方损失训练的转换器
C+RF+DD-Neg经过两个鉴别器训练的转换器。不使用负对 仅使用正对
Retrieval by DD-score检索训练集中最近的产品图片 查询的是测试集中的人像 检索分数来自域鉴别器
C+RF+DD(Ours)经过两个鉴别器训练的转换器

根据穿着者的输入图像生成一件对应的衣服的实验,将论文的方法与表2中的前两个基线进行比较。通过用户研究进行评估,对于真实性、属性捕获与同类别三种评估标准,论文提出的方法均优于基准。特别是,属性捕获和同类别的能力都比“C + MSE”更好。此结果验证了域鉴别器的有效性。

作者还通过像素级相似度进行定量评估。在测试集上生成的图像和目标图像之间的均方根误差(RMSE)上,“C +MSE”显示出最低的RMSE值,因为通过最小化均方损耗来训练转换器。而从结构相似度(SSIM)上,C+RF+DD优于所有基准。

由于该框架不受特定问题的限制,作者希望能将其扩展到从低级图像处理到高级合成的其他类型的像素级域转移问题。

相关工作了解

基于细粒度服装属性的深域自适应人物描述方法(CVPR 2015)

在Pixel-Level Domain Transfer一文中,这篇论文以一种已实现的从图像域到图像域转换的方法被提到。通过深域自适应网络DDAN能够计算两个域图像的相似度,而无需找到公共特征子空间或度量空间。

该论文解决了基于细粒度服装属性来描述人物的问题。对于许多实际应用而言,这是一个重要的问题,例如根据监视视频或消费者照片中详细的服装描述来确定目标嫌疑人或寻找失踪人员。为了解决这个问题,首先从在线购物商店中挖掘带有细粒度属性标签的服装图像。由于这些图像是在理想的姿势/光线/背景条件下拍摄的,直接将它们用作训练数据进行属性预测是不可靠的。为了弥合这一差距,作者提出了一种新颖的双路径深域自适应网络,以对来自两个域的数据进行联合建模。放置在两列之间的几个对齐成本层可确保两个域特征的一致性,以及预测其中一个域中看不见的属性类别的可行性。最后,为了实现具有自动人体对准功能的工作系统,训练了一个基于RCNN的增强型检测器来对图像中的人体进行定位。广泛的实验评估表明,该方法可根据细粒度的服装属性来描述人物,因此是有效的。

贡献总结如下:

  1. 细粒度的服装属性。该论文的目标是在大规模环境下进行细粒度的属性学习。以前的作品仅处理相对较小的一组粗粒度人物属性。

  2. 大规模数据集。作者收集了一个大规模的带注释服装数据集,其中包含约一百万张图像和数百个属性。这是当时用于服装分析和属性学习的最大数据集。许多应用程序都可以从该数据集中受益。

  3. 深度域适应。为了弥合其工作中考虑的两个服装领域之间的差距,提出了一个特定的双路径深层神经网络,该网络用单独的路径对两个领域进行建模。放置了几个附加的对齐层以连接两个路径,以确保两个域分类器的一致性。

  4. 实际的工作应用程序。作者工作是实际产品的一部分,人们可以根据细粒度的服装属性在监视视频中进行搜索。

SketchyGAN:从草图中合成逼真的图像 (CVPR 2018)

从人类绘制的草图中合成逼真的图像是计算机图形和视觉中的一个难题。现有方法要么需要精确的边缘图,要么依赖于对现有照片的检索。在这项工作中,作者提出了一种新颖的生成对抗网络(GAN)方法,该方法可以合成来自摩托车,马和沙发等50个类别的真实图像。作者演示了一种用于草图的数据增强技术,该技术是全自动的,并且证明增强的数据对任务很有帮助。作者引入了一种适用于生成器和鉴别器的新网络构建块,该网络构建块通过以多种比例注入输入图像来改善信息流。与最新的图像翻译方法相比,该方法可生成更逼真的图像,并获得更高的初始分数。

这篇论文提到了一些在使用GAN进行图像到图像翻译的代表性工作,包括条件对抗网络的图像到图像翻译,演示了使用条件GAN将一个图像转换为另一个图像的直接方法。条件设置也适用于其他图像翻译任务,包括Scribbler:使用草图和颜色控制深度图像合成、像素级域转换(样式转换)和生成对抗网络的无监督像素级域自适应任务。与使用条件GAN和配对数据相比,无监督的图像到图像翻译网络介绍了一种由耦合生成对抗网络和一对变分自编码器组成的无监督图像翻译框架。使用周期一致的对抗网络进行不成对的图像到图像的翻译通过加强循环一致性损失,在无监督图像翻译方面显示出了有希望的结果。

总结

本周加深了对生成对抗网络的了解,包括其原理、应用及一些衍生结构。

对一些基本概念如均方误差、交叉熵、JS散度的印象加深。

对以PixelDTGAN为中心的图像到图像翻译相关工作的初步认识。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值