《Image-to-Image Translation with Conditional Adversarial Networks》论文笔记

            Image-to-Image Translation with Conditional Adversarial Networks

 

重点:提出了一种用于图像翻译任务的通用框架——CGAN用于图像翻译(Pixel2Pixel)。

                                               (paired data)

结构:生成器

判别器:PatchGAN——捕捉高频细节,L1距离(欧式距离)捕捉低频细节

        (N*N patch远小于一张图片的大小:本实验中70*70最佳,更小PatchGAN原因:有更少的参数,运行速度快,可以应用于任何大型数据集。应用:texture和style loss)

目标函数:

        对于图像翻译任务而言,G的输入和输出之间其实共享了很多信息,比如图像上色任务,输入和输出之间就共享了edges信息。因而为了保证输入图像和输出图像之间的相似度。还加入了L1 Loss

具体应用:

  1. 从label maps中合成图像;
  2. 从edge maps中重构图像;
  3. 图像上色;
  4. 语义分割

 


 

实验结果:

  1. 目标函数的ablation study

仅使用L1,可以得到合理的结果,但是会很模糊;仅使用cGAN,可以得到更加清晰的结果但引入了人工的痕迹,L1+cGAN可以减少人工痕迹,图像的清晰度仍然不够。而且在FCN-scores上,L1+cGAN取得了最好的结果,仅使用GAN损失函数的结果最差。

  1. 生成器和判别器的ablation study

1*1为pixelsGAN,286*286为imageGAN,其余为patchGAN。实验证明当patch大小为70*70时,可以获得最佳的实验结果。后期的实验结果显示,pixelGAN能获得更丰富的色彩显示,但对空间清晰度没有什么作用。PatchGAN优点就是固定尺寸的判别器能应用于任意尺寸的图像,比如在256*256图像上训练生成器,在512*512图像上测试。

从上图中可以看到,生成器添加了skip connection后,可以获得更高的成像质量。

  1. 其它应用

基于条件生成对抗网络,对其它图像翻译任务同样适用,比如图像着色、、照片修复、进行语义分割、图像背景移除、素描照片生成等,并且都能取得不错的结果。

 


 

分析

论文提出了一种用于图像翻译任务的通用框架——生成器为U-net、判别器为PatchGAN的cGAN,目标函数中引入了L1距离,可以提升图片的低频细节。并对部分图像翻译任务进行了实验,结果也显示所提出的结构的有效性。但是也有一些问题,比如图片的清晰度不够,纹理不够逼真,生成的图片多样性缺乏;若有人工的痕迹加入,会导致结果的偏差等。但对图像翻译任务来说,是一个重要的启发,也广泛的用在了图像任务上,并通过不断的改进适应,取得了很好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值