出自Image-to-Image Translation with Conditional Adversarial Networks
原文如下
3.2.2 Markovian discriminiator (PatchGAN)
L2和L1损失函数有可能在图像生成中造成模糊结果。尽管这些对高频清晰度而言效果较差,但在许多情况下仍能准确地捕获低频。对于这些问题,我们不需要一个全新的网络在低频部分进行纠正。L1已经可以完成了。
这使得GAN的判别器仅模拟高频结构,依靠L1来强制低频部分的正确性。对于模拟高频,只要将注意力限制在局部图像块中结构就可以了。因此,我们设计了一个判别器结构---我们叫它PatchGAN,只在补丁(patch)范围内对结构进行惩罚。这个判别器尝试在一幅图的每个N×N大小的补丁上进行real or fake的判断。我们在整个图片上运行这个判别器,并对所有的结果取均值,以避免判别器的极端输出。
在4.4部分,我们说明了N可以比image的尺寸小很多并且仍旧可以产生高质量的结果。这是有利的,因为一个更小的PatchGAN有更少的参数,运行更快,并且可以在任意大小的图片上运行。
这种判别器将有效的将图像建立为一个马尔科夫随机场,并假定像素间的独立性大于补丁的直径。[35]以前探讨过这种联系,也是纹理和风格模型的常见假设[15,19,14,23,20,34]。因此我们的PatchGAN也可以理解为一种风格/纹理损失。