论文谷歌翻译：SinGAN（代码开源）

最新推荐文章于 2024-05-14 10:06:20 发布

今天敲代码了么

最新推荐文章于 2024-05-14 10:06:20 发布

阅读量7.6k

点赞数 6

分类专栏：论文阅读笔记

原文链接：https://cloud.tencent.com/developer/article/1534434

版权

论文地址：https://arxiv.org/abs/1905.01164

代码地址：http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm

摘要

提出了 SinGAN，这是一个可以从单张自然图像学习的非条件性生成式模型。模型可以捕捉给定图像中各个小块内的内在分布，接着就能够生成带有和给定图像中的视觉内容相同的高质量且多样的新图像。SinGAN的结构是多个全卷积GANs组成的金字塔，这些全卷积GANs都负责学习图像中的某个小块中的数据分布，不同的GANs学习的小块的大小不同。这种设计可以让它生成具有任意大小和比例的新图像，这些新图像在具有给定的训练图像的全局结构和细节纹理的同时，还可以有很高的可变性。与此前的从单张图像学习GAN的研究不同的是，作者们的这个方法不仅仅可以学习图像中的纹理，而且是一个非条件性模型（也就是说它是从噪声生成图像的）。作者们做实验让人分辨原始图像和生成的图像，结果表明很难区分两者。作者们也在多种图像操控任务中展示了SinGAN的作用。

1. 介绍

生成式对抗网络(GANs)[19]在可视化数据的高维分布建模方面取得了巨大的飞跃。特别是，在特定类数据集(例如，面部[33]，卧室[47])上进行训练时，无条件GANs在生成真实、高质量的样本方面表现出了显著的成功。但是，捕获多种不同的类别组成的数据集的分布(例如，(ImageNet[12])仍然被认为是一个主要的挑战，通常需要根据另一个输入信号对生成过程做限制（条件式生成）[6]或为特定的任务训练模型(例如，超分辨率[30]，inpainting[41]，重定向[45])。

在这里，我们将GANs的使用带入了一个新的领域——从单一的自然图像中进行无条件生成学习。

具体来说，我们证明了单个自然图像中patch（小块、补丁）的内部统计信息通常包含了足够的信息，可以用来学习一个强大的生成模型。我们新的单一图像生成模型SinGAN允许我们处理包含复杂结构和纹理的一般自然图像，而不需要依赖于来自同一类别的图像的数据库。这是通过一个由全卷积的轻量级GANs组成的金字塔来实现的，每个GANs负责捕获不同规模的patch分布。一旦经过训练，SinGAN可以生成各种高质量的图像样本(任意维度)，这些样本在语义上与训练图像相似，但包含新的对象配置和结构(图1)。

图1：从单个训练图像中学习的图像生成。提出了一种基于单一自然图像的无条件生成模型我们的模型使用一种专门的多尺度对抗训练方案，在多个尺度上学习图像中的小块的数据分布;然后，它可以用来生成新的逼真的图像样本，在创建新的对象配置和结构时，保持原始的小块分布。

对单个自然图像中的patch内部分布进行建模长期以来一直被认为是许多计算机视觉任务的重要前提[64]。经典的例子包括去噪[65]，去模糊[39]，超分辨率[18]，去雾[2,15]，图像编辑[37,21,9,11,50]。在这方面最相关的工作是[48]，其中定义了一个双向的patch相似性度量，并对其进行了优化，以保证处理后的图像patch与原始图像的patch是相同的。在这些工作的激励下，在这里，我们展示了如何在一个简单的统一学习框架中使用SinGAN来解决各种图像处理任务，包括从单个图像到图像的绘制、编辑、协调、超分辨率和动画。在这些情况下，我们的模型产生了高质量的结果，保持了训练图像的内部patch统计(见图2和我们的项目网页)。所有的任务都是在相同的生成网络中完成的，没有任何额外的信息或原始训练图像之外的进一步训练。

图2：图像操控。SinGAN 可以用来执行多种图像操控任务，包括：把一张剪贴画转换成具有真实感的照片，编辑、重新排列图像中的物体，让添加到图像中的物体变得协调一致，图像超分辨率，或者从单张输入生成动画。在所有这些例子中，模型都只观察过第一横行的训练图像，所有这些应用也都是以同样的方式训练的，没有额外的模型架构修改或者精细调节。

1.1 相关工作

单图像生成模型最近的一些研究工作提出将深度模型“过拟合”到单个训练样例中1[51,60,46,7,1]。然而，这些方法是为特定的任务而设计的(例如，超分辨率[46]，纹理扩展[60])。Shocher等人[44,45]首先为单个自然图像引入了基于内部GAN的模型，并在重定向的背景下进行了说明。然而，它们的生成取决于输入图像(即，将图像映射到图像)，而不是用来绘制随机样本。相比之下，我们的框架是纯生成式的(即将噪声映射到图像样本)，因此适合许多不同的图像处理任务。无条件的单图像GANs仅在纹理生成的环境中被探索过[3,27,31]。当对非纹理图像进行训练时，这些模型不会生成均值样本(图3)。另一方面，我们的方法不局限于纹理，可以处理一般的自然图像(如图1)。

图3：SinGAN对比单个图像纹理生成。用于纹理生成的单一图像模型[3,16]并不是为了处理自然图像而设计的。我们的模型可以生成包含复杂纹理和非重复全局结构的真实图像样本。

生成式图像编辑模型 在许多不同的图像处理任务中，最近的基于gan的方法已经证明了对抗性学习的力量[61、10、62、8、53、56、42、53]。例如交互式图像编辑[61,10]、sketch2imag

最低0.47元/天解锁文章

今天敲代码了么

关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
2
评论
论文谷歌翻译：SinGAN（代码开源）

论文地址：https://arxiv.org/abs/1905.01164代码地址：http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm摘要提出了 SinGAN，这是一个可以从单张自然图像学习的非条件性生成式模型。模型可以捕捉给定图像中各个小块内的内在分布，接着就能够生成带有和给定图像中的视觉内容相同的高质量且多...
复制链接

扫一扫

专栏目录