Learning to Discover Cross-Domain Relations
with Generative Adversarial Networks
https://arxiv.org/abs/1703.05192v1
一. Abstract
task: discovering cross-domain relations(跨域关系) given unpaired data
使用发现的关系,作者成功提出从一个域到另一个域同时保存关键属性的网络传输方式,例如方向和脸部身份
二. Introduction
discovering relations between two visual domains without any explicitly paired data.
(所以是无监督?)
A key intuition:constraint all images in one domain to be representable by images in the other domain.
image-based representation of the handbag image –> through a reconstruction loss,
be as close to images in the shoe domain as possible -> through a GAN loss.
效果:more robust to the mode collapse problem
learns the bidirectional mapping between two image domains
三. model
GAB 是A到B映射,GBA是B到A的映射,作者希望满足映射满足一对一,使GBA
是GAB的逆映射; A中所有XA的结果值GAB(XA),应该包含在域B中,类似于GBA(XB)。普及函数映射知识??
(a) standard GAN (Goodfellow et al., 2014), (b) GAN with a reconstruction loss, (c) our proposed model (DiscoGAN)
作者的心路历程:普通GAN 到 单重构GAN 到 双重构GAN
最后发现DiscoGAN更好满足一对一映射
作者在解释为什么单重构会出现问题,简单说就是A中两个模式的数据都映射到了B中的一个模式,而B中一个模式的数据只能映射到A中这两个模式中的一个。重建损失使得模型在(c)中的两个状态之间震荡,而并不能解决模式崩溃问题。
(好像是有点道理ho,没事,作者为了证明观点进行了各种实验。)
四. experiments
1. Toy Experiment
基于在二维A和B域中合成数据的演示实验, 源与靶都是从高斯混合模型中提取数据样本。
任务是发现A和B域之间的跨域关系,并将样本从五个A域模式转换成B域,该B域围绕圆弧展开十种模式。
(5种颜色表示5个A域,10个黑叉表示10个B域,有色背景显示了D的输出值。说好的一对一呢。。。)
(a)生成器初始化,所以可以看到五种颜色重叠于一点
(b)普通GAN,多个颜色映射到不同B中,各种重叠,模式崩溃
(c)重构GAN, 效果好了点奥,可以看到还是有点重叠,而且有些黑x没被映射到
(d)discoGAN, 作者的模型效果不用说,都映射到了,不然也不会贴出来?
2. Real Domain Experiment
1.汽车到汽车,脸到脸(同样也是3组比较)
2.各种脸的转换
如性别转换,头发颜色转换,是否戴眼镜转换,先转换性别再转换头发颜色,头发颜色、性别来回转,反正就是各种转换,就不贴图了。
3.椅子变车,车变脸
嗯哼,朝向一样,有点意思
4.边缘到图像
哎呀,似曾相识,一个边缘可对多种颜色,可用于图像上色,怪不得训练时图像颜色变来变去?
5. 手提包到鞋子,鞋子到手提包
作者说转换结果不仅具有相似的颜色,也有类似的时尚风格。
五. Related Work
无非是各种GAN,CGAN,CoGAN,StackGAN等
In order to control specific attributes of an image, T. Kulka- rni & P. Kohli (2015) proposed a method to disentangle specific factors by explicitly controlling target code. Perar- nau et al. (2016) tackled image generation problems condi- tioned on specific attribute vectors by training an attribute predictor along with latent encoder.
这个看上去有点厉害,有机会看看
六. Conclusion
本文提出discoGAN来处理跨域转换,而且是无监督的。
作者已经证明,discoGAN能产生高品质的图像与实现风格转移(p.s 这么多功能)。
一个可能的未来方向是修改它来处理混合模式(例如文本和图像)。