Image-to-Image Translation with Conditional Adversarial Networks

CVPR2017年的一篇文章,大名鼎鼎的pix2pix,paper链接https://arxiv.org/abs/1611.07004,一作是MIT的PHD,现在是UC Berkeley的postdoctoral,作者的主页https://people.eecs.berkeley.edu/~isola/,code已经released在github上面了https://github.com/phillipi/pix2pix,截至目前google citation已经585。

文章要做的事情
输入:一张图片    输出:一张图片 
文章将这个任务描述为图像到图像的翻译(image-to-image translation),img2img translation示例如下所示。
img2img translation examples
文章中的一些实验结果的效果图如下所示。
Google Maps at 512x512 resolution
Google Maps at 512x512 resolution
citescapes label2photo
citescapes label2photo
facades labels2photo
facades labels2photo
day2night
day2night
edge2handbags
edge2handbags
edge2shoes
edge2shoes
edges2photo
edges2photo
failure cases
failure cases
pix2pix方法
输入一张图片,然后通过U-Net产生一张新的图片,最后在通过cGAN对原始的ground-truth和产生的图片判断真假,如下左图是pix2pix的框架图,右图为U-Net的结构图。

pix2pix训练的loss function如下所示。
loss function
loss function的物理意义是使得generator产生的图片不仅能骗过discriminator,而且还能与ground-truth在L1 metric下尽可能接近,对于discriminator,文章中采用的是patchGAN,从ablation study来看这个trick还是挺work的,文中对比了4个patch,70X70最work。
文章中比较work的几个点:
1. U-Net
2. cGANs+L1
3. patchGAN

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值