discoGAN 论文解读

最新推荐文章于 2024-05-17 09:51:52 发布

我～

最新推荐文章于 2024-05-17 09:51:52 发布

阅读量5.8k

点赞数 2

分类专栏： paper

本文链接：https://blog.csdn.net/weixin_42445501/article/details/81283248

版权

paper 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Learning to Discover Cross-Domain Relations

with Generative Adversarial Networks

https://arxiv.org/abs/1703.05192v1

一. Abstract

task: discovering cross-domain relations(跨域关系) given unpaired data

使用发现的关系，作者成功提出从一个域到另一个域同时保存关键属性的网络传输方式，例如方向和脸部身份

二. Introduction

discovering relations between two visual domains without any explicitly paired data.

(所以是无监督？)

A key intuition：constraint all images in one domain to be representable by images in the other domain.

image-based representation of the handbag image –> through a reconstruction loss,

be as close to images in the shoe domain as possible -> through a GAN loss.

效果：more robust to the mode collapse problem

learns the bidirectional mapping between two image domains

三. model

GAB 是A到B映射，GBA是B到A的映射，作者希望满足映射满足一对一，使GBA

是GAB的逆映射； A中所有XA的结果值GAB（XA），应该包含在域B中，类似于GBA（XB）。普及函数映射知识？？

(a) standard GAN (Goodfellow et al., 2014), (b) GAN with a reconstruction loss, (c) our proposed model (DiscoGAN)

作者的心路历程：普通GAN 到单重构GAN 到双重构GAN

最后发现DiscoGAN更好满足一对一映射

作者在解释为什么单重构会出现问题，简单说就是A中两个模式的数据都映射到了B中的一个模式，而B中一个模式的数据只能映射到A中这两个模式中的一个。重建损失使得模型在(c)中的两个状态之间震荡，而并不能解决模式崩溃问题。

（好像是有点道理ho，没事，作者为了证明观点进行了各种实验。）

四. experiments

1. Toy Experiment

基于在二维A和B域中合成数据的演示实验, 源与靶都是从高斯混合模型中提取数据样本。

任务是发现A和B域之间的跨域关系，并将样本从五个A域模式转换成B域，该B域围绕圆弧展开十种模式。

（5种颜色表示5个A域，10个黑叉表示10个B域，有色背景显示了D的输出值。说好的一对一呢。。。）

（a）生成器初始化，所以可以看到五种颜色重叠于一点

（b）普通GAN，多个颜色映射到不同B中，各种重叠，模式崩溃

（c）重构GAN, 效果好了点奥，可以看到还是有点重叠，而且有些黑x没被映射到

（d）discoGAN, 作者的模型效果不用说，都映射到了，不然也不会贴出来？

2. Real Domain Experiment

1.汽车到汽车，脸到脸（同样也是3组比较）

2.各种脸的转换

如性别转换，头发颜色转换，是否戴眼镜转换，先转换性别再转换头发颜色，头发颜色、性别来回转，反正就是各种转换，就不贴图了。

3.椅子变车，车变脸

嗯哼，朝向一样，有点意思

4.边缘到图像

哎呀，似曾相识，一个边缘可对多种颜色，可用于图像上色，怪不得训练时图像颜色变来变去？

5. 手提包到鞋子，鞋子到手提包

作者说转换结果不仅具有相似的颜色，也有类似的时尚风格。

五. Related Work

无非是各种GAN,CGAN，CoGAN，StackGAN等

In order to control specific attributes of an image, T. Kulka- rni & P. Kohli (2015) proposed a method to disentangle specific factors by explicitly controlling target code. Perar- nau et al. (2016) tackled image generation problems condi- tioned on specific attribute vectors by training an attribute predictor along with latent encoder.

这个看上去有点厉害，有机会看看