近年图像翻译先进模型小结

©PaperWeekly 原创 · 作者|武广

学校|合肥工业大学硕士生

研究方向|图像生成

计算机视觉下的任务纷繁庞大,除了熟悉的目标检测、图像识别、图像分类等常见的视觉应用,还有着图像翻译、图像分割和图像超分辨率等十分具有研究和应用价值的方向。本文就近年(2019 和 2020 年)图像翻译下的先进模型进行典型性介绍,一起梳理下图像翻译的发展和未来研究的趋势。

图像翻译的发展

图像翻译旨在通过设计端到端的模型将源域图像转换到目标域图像,通常源域提供图像的内容,目标域提供图像的“风格”(可以是图像属性或图像风格),在源域内容下实现目标域的“风格”化,从而实现源域图像到目标域图像的转换。

说的通俗点图像翻译可以是标签图到场景图的转换、线条轮廓到色彩图像转换、图像的风格转换,春夏场景的变换,人脸的属性变换,也可以是白昼交替的转换。只要符合上述端到端转换的任务,都可以通过图像翻译实现。引用 pix2pix [1] 中的经典插图,一起看下图像翻译的实际应用。

▲ 图1.图像翻译的不同任务场景

图像翻译自深度学习应用下便得到了快速的发展,尤其是随着生成对抗网络(GAN)的提出,大大加速了图像翻译的演进。从早期的 pix2pix、CycleGAN [2]、UNIT [3] 到较为成熟的 StarGAN [4] 都是图像翻译在上几年较为成功和经典的模型。

这些模型实现了从源域图像到目标域图像的转换,但这往往需要一定的标签参与或者需要建立源域和目标域各自的生成器,同时任务往往实现的是单目标域的转换。

随着发展到 MUNIT [5]、DRIT [6] 以及 UGATIT [7] 则进一步实现了由源域到多目标域的转换,也有利用语义 mask 图像实现无条件图像翻译的 SPADE [8]。

StyleGAN [9] 实现了高质量的图像风格转换,这无疑于 StyleGAN 的细致的架构,逐步分辨率的阶段性生成、自适应实例正则化(AdaIN)和风格空间的应用。

StyleGAN2 [10] 在 StyleGAN 的基础上进一步对 AdnIN 进行修正,demodulation 操作应用于每个卷积层相关的权重,并且通过 skip generator 代替 progressive growing,实现了更为细致的图像转换。这些基础性的图像转换架构对于近年来的图像翻译任务提供价值性的指导。

近年来,图像翻译实现了更加细致的任务实现,StarGAN v2 [11] 在 StarGAN 的基础上实现了多源域到多目标域的图像转换;ALAE [12] 将自编码器拓展到高精致的图像转换。

HiDT [13] 提供了多域图像转换下对图像翻译下的网络逻辑和损失函数做了细致的总结;ConSinGAN [14] 代表了一众单幅图像训练的先进模型,实现了单幅图像训练下的图像转换任务。本文将以这 4 篇论文进行介绍,对近年图像翻译模型进行分析和小结。

图像翻译模型

2.1 StarGAN v2

论文标题:StarGAN v2: Diverse Image Synthesis for Multiple Domains

论文来源:CVPR 2020

论文链接:https://arxiv.org/abs/1912.01865

代码链接:https://github.com/clovaai/stargan-v2

StarGAN v2 针对 StarGAN 存在的仅能在单目标域下转换和需要标签信息参与的两个问题,提出了目标域下多风格图像的转换。如何实现多目标域的转换呢?StarGAN v2 设计了 Mapping Network 用于生成风格编码,从而为目标域下提供多类型的风格表示而不需要额外的标签,模型的整体结构如图 2 所示。

▲ 图2.StarGAN v2模型整体结构

可以看出 StarGAN v2 由四部分组成,生成器 ,映射网络 ,风格编码器 判别器 。我们先捋一下整个过程,首先映射网络学习到目标域图像的风格编码 ,其中 ,这是映射网络学习到的目标域图像的风格编码。

而作为参照真实目标域图像的风格编码由风格编码器得到 ,得到了风格编码 结合源域输入图像  便可送入到生成器,生成器输出的就是转换后的目标域图像 ,而判别器则为了区分生成的目标域图像是否是真实来源于真实目标域。

StarGAN v2 中映射网络、风格编码器和判别器的输出都是多分支的,因为文章的目的是进行多目标域的转换,这里的多分支就是不同的目标域的表示,对于映射网络和风格编码器,多分支表示的是多个目标域图像的风格表示,对于判别器多分支则是代表不同目标域的判别真假情况,作者在附录中用 表示分支数。

图 3 展示了 StarGAN v2 的较为详细的网络设计。

▲ 图3.StarGAN v2模型设计结构

至于损失函数上,值得一提的是风格表示上的风格重构损失

和映射网络丰富化的 

(使得目标风格表示之间边界分明,产生多目标转换结果,最大化 ),还有就是较为熟悉的对抗损失 和循环一致损失 ,在最终的损失优化上:

实验上,在图像转换上展示了优越的效果。

▲ 图4.StarGAN v2定性对比结果

2.2 ALAE

论文标题:Adversarial Latent Autoencoders

论文链接:https://arxiv.org/abs/2004.04467

代码链接:https://github.com/podgorskiy/ALAE

自编码器能否具有像 GAN 那样的生成能力呢?ALAE 给出了肯定的答案,ALAE 算是建立在 StyleGAN 基础之上,具备与 GAN 相当的生成能力,且能够学习解耦表征,在人脸属性变换上展示了优越的效果。

ALAE 采用自编码器架构,将 GAN 中的生成器和判别器分解为两个网络,生成器对应着 ,判别器对应着 ,先从整体架构来看一下 ALAE 模型。

▲ 图5.ALAE模型结构

在训练阶段,随机噪声 经过网络 ,将随机噪声映射到数据的潜在空间 ,网络 则负责将数据潜在空间

  • 3
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值