【读书笔记】DA-GAN: Instance-level Image Translation

DA-GAN是一个无监督的图像翻译框架,解决了在无配对数据下找到正确对应关系的挑战。通过深度注意力编码器,DA-GAN能在实例和集合级别上找到有意义的对应,减少了模式崩溃和伪像问题,适用于图像变形、数据增强等领域。
摘要由CSDN通过智能技术生成

Abstract

旨在翻译两组独立图像的无监督图像翻译在没有配对数据而找到正确对应方面上具有挑战性。基于GAN展开的研究工作使得翻译图像的分布与目标集合的分布无法区分。然而,这样的集合约束不能学习实例级别的对应关系(例如对象配置任务中对齐的语义部分)。这种限制常常导致误报(例如几何或语义伪像),并进一步导致模式崩溃问题。为了解决上述问题,我们提出了一个由Deep Attention GAN(DA-GAN)提供的用于实例级图像转换的新框架。这样的设计使DA-GAN能够将翻译两个集合的样本任务分解成翻译高度结构化的潜在空间中的实例。具体来说,我们共同学习一个深入关注的编码器,通过参加学习的实例对可以发现实例级别的对应关系。因此,可以在集合级别和实例级别上利用约束条件。与几种现有技术的比较证明了我们的方法的优越性,并且拥有广泛的应用能力(例如,变形,数据增强等),大大推动了域翻译问题的研究进展。

Introduction

研究人员开发无监督学习方法,这种方法仅依赖于未配对的数据。 在无人监督的环境下,我们只有两套独立的样本。 配对关系的缺乏使得寻找正确的对应关系变得更加困难,因此更具挑战性。 现有研究通常建立在生成敌对网络(GAN)上,使得翻译样本的分布与目标集合的分布无法区分。 但是,我们指出数据本身是结构化的。 这样的集合级别限制妨碍了他们找到有意义的实例级别的对应关系。

在这个重要问题的推动下,出现了一个问题:我们可以寻找一种能够在无人监督环境下从集合级别和实例级别中找到有意义对应关系的算法吗? 为了解决这个问题,在本文中,我们介绍了一种专用的无监督域翻译方法,它建立在DA-GAN上,该方法在各种翻译任务中取得成功,并取得了引人注目的结果。

  • 我们将任务分解为实例级别的图像转换,以便通过采用建议的复合损失,可以在实例级别和集合级别上利用约束。
  • 据我们所知,我们是第一个将关注机制整合到生成敌对网络中的研究人员。
  • 我们引入了一个新颖的框架DA-GAN,它产生了引人注目的结果,并且适用于各种各样的任务。

GAN(生成式对抗网络):是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN 理论中,并不要求 G 和 D 都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法,否则可能由于神经网络模型的自由性而导致输出不理想。

GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是:
G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。
D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。
在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。
最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。
这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。
(摘自百度百科)

Approach

这里写图片描述
该图用于说明DA-GAN流水线的姿态变形示例。给定从源域S和目标域T两个鸟类的图像,姿态变形的目标是将源姿态转换为目标姿态,同时仍然保持s的身份。
(a)中显示了前馈过程,其中两个输入图像被送到DAE中,并将它们投影到一个潜在空间(用虚线框标记)。然后,G从潜在空间中取出这些高度结构化的表示(DAE(s)和DAE(t)),以生成转换后的样本,即s0 = G(DAE(s)),t0 = G(DAE(t))。
(b)中显示了上述DAE的细节(以橙色块标记)。给定图像X,定位函数floc将首先根据X的特征图(即E(X),其中E是可以以任何形式使用的编码器)预测N个关注区域的坐标。然后在X上产生并激活N个注意掩模以产生N个关注区域。最后,每个区域的功能由实例级别的表示组成。通过在S和T上操作相同的方式,可以在潜在空间中找到实例级别的对应关系。我们利用实例级别和集合级别上的约束条件进行优化,如(c)所示。(d)中列出了所有符号。

Deep Attention Encoder

为了将样本投射到潜在空间中,我们整合了注意机制以共同学习DAE。 给定输入图像X(其中E是可以以任何形式使用的编码器)的特征映射E(X),我们首先采用定位函数floc(·)来预测一组关注区域的位置,即由:

floc(E(X))
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值