论文笔记-TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images

最新推荐文章于 2022-11-26 20:21:42 发布

kingsleyluoxin

最新推荐文章于 2022-11-26 20:21:42 发布

阅读量904

点赞数

分类专栏：论文笔记计算机视觉深度学习文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/107753951

版权

论文笔记同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

深度学习

57 篇文章 2 订阅

订阅专栏

计算机视觉

56 篇文章 4 订阅

订阅专栏

论文信息
- 标题： TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images
- 作者：Jianxin Lin (flinjx@mail.ustc.edu.cn), Yingxue Pang (pangyx@mail.ustc.edu.cn), Yingce Xia (yingce.xia@microsoft.com), Zhibo Chen (chenzhibo@ustc.edu.cn), Jiebo Luo (luo@cs.rochester.edu)
- 机构：中国科学技术大学，微软亚研院，罗彻斯特大学
代码链接
- https://github.com/linjx-ustc1106/TuiGAN-PyTorch
论文主要贡献
- 提出 TuiGAN 实现只有两张图像的 UI2I 任务
- 利用两个条件 GAN 的金字塔进行渐进的图像翻译
- 实验证明提出的模型可以解决许多 UI2I 任务
论文要点翻译
- 摘要
  - 无监督图像到图像的翻译任务建立不成对的两个图像域之间的映射关系，现有的 UI2I 方法通常需要大量的不同域的图像作为训练数据，然而许多场合的训练数据是非常有限的
  - 本文提出，即使每个域只包含一张图像，UI2I 任务也是可以实现的，提出的 TuiGAN 是一个只用两个不成对图像进行训练的生成模型，可以达到 one-shot 无监督学习的目的
  - 通过 TuiGAN，图像从粗粒度到细粒度地转换成生成的图像，这个过程中，生成图像无论是结构还是局部的细节都在逐渐得到优化
  - 实验结果证明，TuiGAN 成功用于许多不同的 UI2I 任务，此外 TuiGAN 甚至能够达到之前用许多数据训练的模型达到的性能
- 引言
  - UI2I 任务将源域的图像建立映射到目标域，保持主要内容不变，但是风格转向目标域的风格，这个过程中没有成对的数据。UI2I 方法中，条件 UI2I 已经受到广泛关注，其中给定两张图像，一张是源域用于提供主要内容，另一张来自目标域，用于指定生成图像风格
  - 通常，典型的 UI2I 需要大量的数据进行训练，但是，实际情况下可能难以采集足够数量的图像，极端的例子就是 one-shot 的情况，这时只有来自源域和目标域的两张图像，而且是不成对的，这样的情况在现实生活中是很常见的，因此，本文的主要研究目标就是研究 one-shot 条件下的 UI2I 方法
  - 本文的方法是传统的图像风格迁移方法的特殊情况，需要一张源域图像和一张目标域图像，分别作为内容图像和风格图像，在图像风格迁移方法中，转换的图像的用于描述风格的特征应当和提供的用于描述风格图像的风格特征匹配，在此基础上，本文方法不仅仅限定北京中的风格信息匹配，更加限定其中包含的高层次的语义信息也应当能够匹配，因此，高级的语义信息也应当随之迁移
  - 实现 UI2I 任务，模型必须能够有效捕获两个域之间的分布差异，这也是本文任务的最大挑战，仅仅利用两张图像就要实现对图像代表的域数据分布的分析。为了实现这样的 one-shot 转换，本文提出了新的条件生成对抗网络，即 TuiGAN，该网络能够将输入图像代表的源分布转换为目标域，过程中渐进地由粗粒度到细粒度地进行转换，渐进的转换使得模型能够提出隐含的两个图像之间的关系，因为渐进得过程改变感受野大小，连续的、不同粒度的感受野的变化，使得隐含的特征得以充分挖掘。具体而言，使用两个生成器和判别器的金字塔用于优化生成的结果，使得生成的结果不管是结构还是局部的细节都得以优化，每个相同尺度的生成器对负责申城该尺度的与目标域相似的图像，每个相同长度的判别器对捕获相同尺度的两个域的图像的域分布特征，其他的 one-shot UI2I 方法使用一张源域图像和多张目标域图像，本文的方法源域和目标域都只一张图像
  - 实验结果表明，TuiGAN 在许多不同的 UI2I 任务上都表现良好，成功解决了 one-shot 条件下的 UI2I 任务，模型甚至能够达到现有的使用大量数据训练的 UI2I 模型的性能
- 相关工作
  - I2I 翻译任务：监督的 pix2pix，非监督的 DiscoGAN、CycleGAN、DualGAN，few-shot 条件下的 FUNIT
  - 图像风格迁移
  - 单图像生成模型：InGAN【33】，SinGAN【32】，这些模型没有捕获图像之间的对应关系
- 方法
  - 有两张图像 $I_A \in A$ 和 $I_B \in B$ , A 和 B 表示两个不同的图像域，目标在于将 $I_A$ 转换为 B 域中的 $I_{AB}$ 将 $I_B$ 转换为 A 域中的 $I_{BA}$ ，这个过程中，转换的数据源只有两张图像，没有额外的输入，且转换的图像应当包含域不变的特征，将域相关的特征由源域转换为目标域
  - 为了实现这个图像翻译任务，需要实现一对映射，即 $G_{AB}:A \to B$ 和 $G_{BA}: B \to A$ ，使得 $I_{AB}=G_{AB}(I_A),I_{BA}=G_{BA}(B)$
  - 在这个形式化目标中，需要学习 A 和 B 两个域的分布规律，由于训练数据有限， $G_{AB}$ 和 $G_{BA}$ 实现为两个多尺度的条件 GAN，从粗粒度到细粒度将图像渐进地翻译，这样能够在不同分辨率尺度，充分利用有限的训练数据，具体来说，将 $I_A$ 和 $I_B$ 降采样为 N 个不同分辨率的图像，获得 $\mathcal{I}_A=\{I_A^n|N=0,1,...,n\}$ 和 $\mathcal{I}_B=\{I_B^n|N=0,1,...,n\}$ ，其中的 $I_A^n$ 对应图像 A 降采样得到 $1/s)^n$ 的图像
  - 之前的方法中，多尺度的网络都是通过不同的训练图像训练的，条件图像生成通过多个成对的训练数据训练。本文将多尺度框架用于 one-shot 的无监督学习，只是用两张不成对的图像训练学习 UI2I 任务网络
  - 网络结构如图2所示，整个框架由于两个堆成的翻译模型 $G_{AB}$ 和 $G_{BA}$ 实现，其中每个翻译模型由一系列的不同尺度的生成器组成，每个尺度对应一组判别器，用于判断输入的图像是否为对应域的图像
  - 渐进的图像翻译：翻译从最低分辨率开始，逐渐到最高分辨率，对于 N 尺度之前的网络，输入为源域图像和之前一个阶段生成的目标域图像的上采样结果，通过这样的过程逐渐扩大分辨率，渐进地实现图像翻译
  - 尺度敏感的生成器，同一尺度的两个生成器拥有同样的网络结构，但是参数权重不同，各自包含两个全卷积网络， $G_{AB}^n$ 工作过程可以形式化为：
  - $I_{AB}^n=\Phi(I_A^n)$
  - $A^n=\Psi(I_{AB,\Phi}^n,I_A^n,I_{AB}^{n+1 \uparrow})$
  - $I_{AB}^n=A^n \bigotimes I_{AB,\Phi} + (1-A^n) \bigotimes I_{AB}^{n+1 \uparrow}$
  - Loss 函数由以下几个部分组成：
    - 对抗 loss （来自 G 和 D 的对抗博弈）
    - CycleLoss（来自图像重建的循环一致性）
    - IDT Loss（目标图像域目标映射后与原图像相等）

kingsleyluoxin

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
论文笔记-TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images

论文信息标题： TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images作者：Jianxin Lin (flinjx@mail.ustc.edu.cn), Yingxue Pang (pangyx@mail.ustc.edu.cn), Yingce Xia (yingce.xia@microsoft.com), Zhibo Chen (chenzhibo@ustc.edu.cn), Jiebo Lu..
复制链接

扫一扫