SinGAN：从单张自然图像中学习生成模型

最新推荐文章于 2024-09-13 17:24:12 发布

YannicKilcher

最新推荐文章于 2024-09-13 17:24:12 发布

阅读量135

点赞数 1

文章标签：文心一言 midjourney AI编程 gpt DALL·E 2

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141179418

版权

这篇论文介绍了一种名为“单一自然图像”的生成模型，它能够从一张单一图像中学习并生成新的图像，而无需像传统生成模型那样需要大量的图像数据进行训练。

该模型的核心在于学习图像中不同尺度的区域分布。例如，它可以学习到图像中草地、天空和鸟类的分布，以及草地边缘的形状变化。通过学习这些分布，模型可以生成各种不同的图像，例如改变图像的比例、添加新的元素，甚至将一种图像的风格迁移到另一种图像上。

论文中展示了该模型在图像编辑和风格迁移方面的应用。在图像编辑中，用户可以通过简单的绘画或文字描述来修改图像，例如将塔楼降低或将房屋变宽。在风格迁移中，用户可以将一种图像的风格应用到另一种图像上，例如将一幅油画的风格迁移到一张照片上。

虽然该模型在生成图像方面展现出了潜力，但它也存在一些局限性，例如在图像编辑中，模型生成的图像在一些边界处存在像素拉伸或不自然的情况。

总而言之，该论文提出的“单一自然图像”生成模型为生成模型领域带来了新的思路，它能够从单一图像中学习，并生成具有多样性的图像，为图像编辑和风格迁移等应用提供了新的可能性。

仅需一张图像作为输入，该算法就能学习一个生成模型，该模型在多个尺度和分辨率上匹配输入图像的块分布。这使得能够对原始图像进行极其逼真的变化采样，以及更多。摘要：我们介绍了 SinGAN，这是一种无条件生成模型，可以从单个自然图像中学习。我们的模型经过训练可以捕捉图像中块的内部分布，然后能够生成高质量、多样化的样本，这些样本具有与图像相同的视觉内容。SinGAN 包含一个全卷积 GAN 金字塔，每个 GAN 负责学习图像不同尺度的块分布。这使得能够生成任意大小和纵横比的新样本，这些样本具有显著的可变性，同时保持训练图像的全局结构和精细纹理。与之前的单图像 GAN 方案相比，我们的方法不受限于纹理图像，并且不是条件性的（即它从噪声生成样本）。用户研究证实，生成的样本通常会被误认为是真实图像。我们在广泛的图像操作任务中说明了 SinGAN 的实用性。作者：Tamar Rott Shaham, Tali Dekel, Tomer Michaelihttps://arxiv.org/abs/1905.01164https://github.com/tamarott/SinGAN