论文地址:https://phillipi.github.io/pix2pix/ 这个地址里面有源码
论文主要工作
1.目标函数中加入L1约束
加入了L1约束项,该约束项主要是为了让生成的图像与ground truth尽可能靠近(从像素层面)。为什么不是加的L2约束项呐?文中说:“using L1 distance rather than L2 as L1 encourages less blurring”。加入之后的目标函数变为:
2.在生成器中,用U-net结构代替encoder-decoder
U-net与encoder-decoder相比主要是多了skip connection. 使得网络的表达能力更强。
3.使用PatchGAN作为Discriminator
通常判断都是对生成样本整体进行判断,比如对一张图片来说,就是直接看整张照片是否真实。而且Image-to-Image Translation中很多评价是像素对像素的,所以在这里提出了分块判断的算法,在图像的每个
N×N
块上去判断是否为真,最终平均给出结果。
ps:在开源的tensorflow版本的源代码中没看到PatchGAN。
实验评估方式
1. Amazon Mechanical Turk(AMT)方式
简单说就是让人对生成的图像给出主观评价
2. FCN-score
FCN是经典的语义分割网络,