CV笔记02:单图训练的SinGAN

SinGAN


在这里插入图片描述

从单个训练图像中学到的图像生成。 我们提出SinGAN ,一种在单个自然图像上训练的新的无条件生成模型。 我们的模型使用专用的多尺度对抗训练方案来跨多个尺度学习图像的补丁统计信息; 然后可以将其用于生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始补丁分布。

一、SinGAN是什么?

  • SinGAN,这是一个可以从单张自然图像学习的非条件性生成式模型。
  • 这个模型可以捕捉给定图像中各个小块内的内在分布,然后利用学到的信息,生成高质量、更多样性的样例,这些样例有着与原图相似的图像内容。
  • SinGAN的结构是多个全卷积GANs组成的金字塔,这些全卷积GANs都负责学习图像中的某个小块中的数据分布,不同的GANs学习的小块的大小不同。
  • 这种设计可以让它生成具有任意大小和比例的新图像,这些新图像在具有给定的训练图像的全局结构和细节纹理的同时,还可以有很高的可变性。
  • 与此前的从单张图像学习GAN的研究不同的是,该方法是一个非条件性模型(也就是说它是从噪声生成图像的)。

三个关键字:单个自然图像 、非条件生成模型 、 内部尺度分布

作用是:生成高质量图像(同时又可以保持训练图像的整体结构和精细的纹理特征)

举例:油画作品变化、图片编辑、图像物体融合、 超分辨率图像、动画生成

二、背景和相关工作

  • 普通GAN的应用情况使用已经比较全面,但是对训练数据集有限制。
  • 本文将GAN带入了一个新领域–从单幅自然图像中学习非条件生成模型。单幅自然图像通常具有足够的内部统计信息,可以使网络学习到一个强大的生成模型。
  • 作者提出了一种具有简单统一架构的模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像,而不必依赖于具有同一类别图像的数据集。这是通过金字塔结构的全卷积GAN实现的,每个GAN负责捕捉不同尺度的图像分布。

文章中反复强调:

  1. SinGAN:一种在单幅自然图像上训练的新型非条件生成模型
  2. 训练数据源是来自单个图像
  3. 一个统一的模型

作者提出sinGAN,打破了两个限制。SinGAN就在一张图像上训练,不在乎图像的类别,不管数据集都单类的人脸数据等,还是多类的分类数据等,都只在一张图像上训练,自然不在乎图像的类别的。采用Unconditional GAN能处理很多种任务同样是首创。

另一方面, 从新的角度上诠释了生成图像。以往的GAN,往往都在提供了某一类的众多的图像作为训练集,然后生成器学习到这些样本中的相同特征的分布。比如说人脸都有眼睛嘴巴等。那么我就用人脸举例子。然后测试的时候,输入噪声,网络就能输出带有人脸特征的人脸了。但SinGAN从新的角度,不去学习人脸类的共同特征,转而学习单一人脸图像的数据分布,这样网络可以生成这个人的脸,同时可能有不同视角下的这个人的脸。

三、模型

1. 文章的目的

我们的目标是学习一个无条件的生成模型,该模型捕获单个训练图像x的内部统计数据。

此任务在概念上与常规GAN设置相似,不同之处在于,此处训练样本是单幅图像不同尺度下的采样图像,而不是数据集中的整个图像样本。

模型选择处理更一般的自然图像,赋予模型生成纹理外的其他功能。为了捕捉图像中目标形状和排列位置这样的全局属性(如天空在顶部,地面在底部),以及精细的细节和纹理信息,SinGAN包含具有层级结构的patch-GANs(马尔可夫判别器),其中每个判别器负责捕捉x不同尺度的分布,如模型图所示。GAN的接收场较小,容量有限,因此无法记住单个图像。

在这里插入图片描述

虽然在GAN中已经探索使用了类似的多尺度结构,但本文还是第一个为从单幅图像进行内部学习而探索的网络结构。

2. 方法

SinGAN在仅仅一张图像上训练,这张图片既是训练样本也是测试样本。在这张图像上训练完了之后,同样在这样图片上测试。如果你想换一张图像测试,就必须先在那张图像上训练,这是有异于其他GAN的。

作者把原图按照一定的比例下采样,得到很多的下采样版本的图像,作者称这些样本为patch,用这些patches训练(patch的意思一般都是指从原图crop)

SinGAN采用无条件GAN方式设计,而且是级联式的Generator-Discriminator pair的形式。每一个G-D都负责一种尺度。作者发现,通过学习patch内部的数据分布,网络最终能在测试时输出保留原图中目标的结构以及形象,但是又不同于原图的真实图像。

3. 模型的结构

  • 多尺度结构
  • 单尺度模型
  • 层级结构马尔科夫判别器

SinGAN的多尺度管道

The generation of an image sample starts at the coarsest scale and sequentially passes through all generators up to the finest scale, with noise injected at every scale.

图像样本的生成从最粗的尺度开始,依次通过所有生成器,直到最细的尺度,在每个尺度注入噪声。

All the generators and discriminators have the same receptive field and thus capture structures of decreasing size as we go up the generation process.

所有的生成器和判别器都有相同的接收域,因此在生成过程中捕获的结构尺寸都在减小。

1) 生成器

从最下面看开始看。先看G生成器这边,假设有N个尺度,最下面的第N个尺度是最粗糙的,最上面的尺度是最细的(finest)。

当处于最粗糙尺度时

在这里插入图片描述

x ~ N = G N ( z N ) \tilde{x}_N=G_N(z_N) x~N=GN(zN)
在粗尺度上,这一代是纯生成,即 G n Gn Gn 映射空间高斯白噪声 z N z_N zN 到图像样本 x ~ N \tilde{x}_{N} x~N。这一层的有效接受域通常为图像高度的一半,因此 G N G_N GN 会生成图像和对象全局结构的总体布局。

处于上面的N-1个更小尺度

在这里插入图片描述

x ~ n = G n ( z n , ( x ~ n + 1 ) ↑ r ) , n < N \tilde{x}_n=G_n(z_n,(\tilde{x}_{n+1})\uparrow^r),\qquad n<N x~n=Gn(zn,(x~n+1)r

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值