图像翻译——pix2pix模型

最新推荐文章于 2024-09-13 11:13:51 发布

weixin_33813128

最新推荐文章于 2024-09-13 11:13:51 发布

阅读量1.8k

点赞数 1

原文链接：https://juejin.im/post/5d0628405188254ee433c9b3

版权

Pix2pix是一种基于cGAN的图像到图像翻译模型，利用U-Net结构的生成器和PatchGAN判别器，通过结构化损失函数实现图像之间的转换。该模型适用于各种图像翻译任务，如边缘到图像的生成，引入了L1损失以保持输入和输出的相似度。Pix2pix的网络架构包括Encoder-Decoder结构的生成器和关注局部信息的PatchGAN判别器。

摘要由CSDN通过智能技术生成

1.介绍

图像处理、计算机图形学和计算机视觉中的许多问题都可以被视为将输入图像“翻译”成相应的输出图像。 “翻译”常用于语言之间的翻译，比如中文和英文的之间的翻译。但图像翻译的意思是图像与图像之间以不同形式的转换。比如：一个图像场景可以以RGB图像、梯度场、边缘映射、语义标签映射等形式呈现，其效果如下图。

传统图像转换过程中都是针对具体问题采用特定算法去解决；而这些过程的本质都是根据像素点（输入信息）对像素点做出预测(predict from pixels to pixels)，Pix2pix的目标就是建立一个通用的架构去解决以上所有的图像翻译问题，使得我们不必要为每个功能都重新设计一个损失函数。

2. 核心思想

2.1 图像建模的结构化损失

图像到图像的翻译问题通常是根据像素分类或回归来解决的。这些公式将输出空间视为**“非结构化”**，即在给定输入图像的情况下，每个输出像素被视为与所有其他像素有条件地独立。而cGANs（ conditional-GAN）的不同之处在于学习结构化损失，并且理论上可以惩罚输出和目标之间的任何可能结构。

2.2 cGAN

在此之前，许多研究者使用 GAN 在修复、未来状态预测、用户约束引导的图像处理、风格迁移和超分辨率方面取得了令人瞩目的成果，但每种方法都是针对特定应用而定制的。Pix2pix框架不同之处在于没有特定应用。它在生成器和判别器的几种架构选择中也与先前的工作不同。对于生成器，我们使用基于“U-Net”的架构；对于鉴别器，我们使用卷积“PatchGAN”分类器，其仅在image patches（图片小块）的尺度上惩罚结构。

Pix2pix 是借鉴了 cGAN 的思想。cGAN 在输入 G 网络的时候不光会输入噪音，还会输入一个条件（condition），G 网络生成的 fake images 会受到具体的 condition 的影响。那么如果把一副图像作为 condition，则生成的 fake images 就与这个 condition images 有对应关系，从而实现了一个 Image-to-Image Translation 的过程。Pixpix 原理图如下：

Pix2pix 的网络结构如上图所示，生成器 G 用到的是 U-Net 结构，输入的轮廓图x编码再解码成真实图片，判别器 D 用到的是作者自己提出来的条件判别器 PatchGAN ，判别器 D 的作用是在轮廓图 x的条件下，对于生成的图片G(x)判断为假，对于真实图片判断为真。