Image-to-Image Translation with Conditional Adversarial Networks
重点:提出了一种用于图像翻译任务的通用框架——CGAN用于图像翻译(Pixel2Pixel)。
(paired data)
结构:生成器
判别器:PatchGAN——捕捉高频细节,L1距离(欧式距离)捕捉低频细节
(N*N patch远小于一张图片的大小:本实验中70*70最佳,更小PatchGAN原因:有更少的参数,运行速度快,可以应用于任何大型数据集。应用:texture和style loss)
目标函数:
对于图像翻译任务而言,G的输入和输出之间其实共享了很多信息,比如图像上色任务,输入和输出之间就共享了edges信息。因而为了保证输入图像和输出图像之间的相似度。还加入了L1 Loss
具体应用:
- 从label maps中合成图像;
- 从edge maps中重构图像;
- 图像上色;
- 语义分割
实验结果:
- 目标函数的ablation study
仅使用L1,可以得到合理的结果,但是会很模糊;仅使用cGAN,可以得到更加清晰的结果但引入了人工的痕迹,L1+cGAN可以减少人工痕迹,图像的清晰度仍然不够。而且在FCN-scores上,L1+cGAN取得了最好的结果,仅使用GAN损失函数的结果最差。
- 生成器和判别器的ablation study
1*1为pixelsGAN,286*286为imageGAN,其余为patchGAN。实验证明当patch大小为70*70时,可以获得最佳的实验结果。后期的实验结果显示,pixelGAN能获得更丰富的色彩显示,但对空间清晰度没有什么作用。PatchGAN优点就是固定尺寸的判别器能应用于任意尺寸的图像,比如在256*256图像上训练生成器,在512*512图像上测试。
从上图中可以看到,生成器添加了skip connection后,可以获得更高的成像质量。
- 其它应用
基于条件生成对抗网络,对其它图像翻译任务同样适用,比如图像着色、、照片修复、进行语义分割、图像背景移除、素描照片生成等,并且都能取得不错的结果。
分析
论文提出了一种用于图像翻译任务的通用框架——生成器为U-net、判别器为PatchGAN的cGAN,目标函数中引入了L1距离,可以提升图片的低频细节。并对部分图像翻译任务进行了实验,结果也显示所提出的结构的有效性。但是也有一些问题,比如图片的清晰度不够,纹理不够逼真,生成的图片多样性缺乏;若有人工的痕迹加入,会导致结果的偏差等。但对图像翻译任务来说,是一个重要的启发,也广泛的用在了图像任务上,并通过不断的改进适应,取得了很好的效果。