图像翻译——pix2pix模型

1.介绍图像处理、计算机图形学和计算机视觉中的许多问题都可以被视为将输入图像“翻译”成相应的输出图像。 “翻译”常用于语言之间的翻译,比如中文和英文的之间的翻译。但图像翻译的意思是图像与图像之间以不同形式的转换。比如:一个图像场景可以以RGB图像、梯度场、边缘映射、语义标签映射等形式呈现,其效果如下图。传统图像转换过程中都是针对具体问题采用特定算法去解决;而这些过程的本质都是根据像素点(输入...
摘要由CSDN通过智能技术生成

1.介绍

图像处理、计算机图形学和计算机视觉中的许多问题都可以被视为将输入图像“翻译”成相应的输出图像。 “翻译”常用于语言之间的翻译,比如中文和英文的之间的翻译。但图像翻译的意思是图像与图像之间以不同形式的转换。比如:一个图像场景可以以RGB图像、梯度场、边缘映射、语义标签映射等形式呈现,其效果如下图。

传统图像转换过程中都是针对具体问题采用特定算法去解决;而这些过程的本质都是根据像素点(输入信息)对像素点做出预测(predict from pixels to pixels),Pix2pix的目标就是建立一个通用的架构去解决以上所有的图像翻译问题,使得我们不必要为每个功能都重新设计一个损失函数。

2. 核心思想

2.1 图像建模的结构化损失

图像到图像的翻译问题通常是根据像素分类或回归来解决的。这些公式将输出空间视为**“非结构化”**,即在给定输入图像的情况下,每个输出像素被视为与所有其他像素有条件地独立。而cGANs( conditional-GAN)的不同之处在于学习结构化损失,并且理论上可以惩罚输出和目标之间的任何可能结构。

2.2 cGAN

在此之前,许多研究者使用 GAN 在修复、未来状态预测、用户约束引导的图像处理、风格迁移和超分辨率方面取得了令人瞩目的成果,但每种方法都是针对特定应用而定制的。Pix2pix框架不同之处在于没有特定应用。它在生成器和判别器的几种架构选择中也与先前的工作不同。对于生成器,我们使用基于“U-Net”的架构;对于鉴别器,我们使用卷积“PatchGAN”分类器,其仅在image patches(图片小块)的尺度上惩罚结构。

Pix2pix 是借鉴了 cGAN 的思想。cGAN 在输入 G 网络的时候不光会输入噪音,还会输入一个条件(condition),G 网络生成的 fake images 会受到具体的 condition 的影响。那么如果把一副图像作为 condition,则生成的 fake images  就与这个 condition images 有对应关系,从而实现了一个 Image-to-Image Translation  的过程。Pixpix 原理图如下:

Pix2pix 的网络结构如上图所示,生成器 G 用到的是 U-Net 结构,输入的轮廓图x编码再解码成真实图片,判别器 D 用到的是作者自己提出来的条件判别器 PatchGAN ,判别器 D 的作用是在轮廓图 x的条件下,对于生成的图片G(x)判断为假,对于真实图片判断为真。

2.3 cGAN 与 Pix2pix 对比

2.4 损失函数

一般的 cGANs 的目标函数如下:

L_{cGAN}(G, D) =E_{x,y}[log D(x, y)]+E_{x,z}[log(1 − D(x, G(x, z))]

其中 G 试图最小化目标而 D 则试图最大化目标,即:\rm G^∗ =arg; min_G; max_D ;L_{cGAN}(G, D)

为了做对比,同时再去训练一个普通的 GAN ,即只让 D 判断是否为真实图像。

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值