图像生成概述

Wilson-Huang

已于 2024-01-15 10:46:31 修改

阅读量1.3k

点赞数 21

文章标签：计算机视觉人工智能

于 2024-01-15 10:43:19 首次发布

本文链接：https://blog.csdn.net/freeandeasy_roni/article/details/135595494

版权

本文概述了图像生成技术在人工智能领域的关键进展，从GAN的诞生、自回归模型的优化到扩散模型的兴起，探讨了它们的优势与局限，并着重介绍了CLIP在跨模态生成中的作用。同时，文章还讨论了条件生成模型和多模态内容生成的应用实例。

摘要由CSDN通过智能技术生成

导言

图像作为人工智能内容生成的一种模态，一直在AIGC领域中扮演着重要角色，由于图像生成应用的广泛性和实用性，使其受到学术界和产业界相当多的关注。近年来，图像生成技术也取得了很多关键性突破，从经典的GAN技术到目前主流的扩散模型，以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型，极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时，生成速度和稳定性的提升、可控性和多样性的增强，以及数据隐私和知识产权等问题，也需要在图像生成向各行各业渗透的过程中进行解决和探索。

定义

图像生成是指运用人工智能技术，根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同，图像生成主要包括图像合成（image composition），根据现有的图片生成新图像（image-to-image），以及根据文本描述生成符合语义的图像（text-to-image）等。

根据图像构成的类型，图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图，图像生成模型可实现不同图像类型的转换。

图像类型	性质	典型应用
二值图	图像的二维矩阵仅由0 (黑色) 和1 (白色) 构成，可视同灰度图的二值化	文字提取、图像特征提取
灰度图	二维矩阵元素取值范围通常在0 (纯黑色)到255 (纯白色) ，中间数字代表黑到白之间的过渡色	医学图像、遥感图像生成
索引图	由存放图像的二维矩阵和颜色索引矩阵MAP构成	分子图等色彩构成比较简单的图像生成
RGB图	用RGB三原色的组合表示每个像素的颜色值并直接存放在图像矩阵中	真彩图像生成

技术发展的关键阶段

GAN生成阶段：

生成对抗网络（GAN）是上一代主流图像生成模型，GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力，使生成式网络的数据愈发趋近真实数据，从而达到生成逼真图像的目的。但在发展过程中，GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。

自回归生成阶段：

自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验，利用Transformer结构中的自注意力机制能够优化GAN的训练方式，提高了模型的稳定性和生成图像的合理性，但基于自回归模型的图像生成在推理速度和训练成本方面的问题，使其实际应用受限。

扩散模型生成阶段：

对于前代模型在性能方面的局限性，扩散模型（Diffusion Model）已经使这些问题得到解决，其在训练稳定性和结果准确性的效果提升明显，因此迅速取代了GAN的应用。而对于产业应用中的大量跨模态图像生成需求，则需要结合CLIP进行，CLIP基于文本-图像对的训练方式能够建立跨模态的连接，显著提升生成图像的速度和质量。

目前，业内主流且生成效果优秀的图像生成产品主要是基于扩散模型和CLIP实现的。

变分自动编码器VAE、生成对抗网络（GAN）、扩散模型DDPM
条件生成模型：除了无条件生成图像，研究人员也致力于条件生成模型，即在给定特定条件或约束下生成图像。这些条件可以是文本描述、语义标签或部分图像等。条件生成模型有助于实现更精确和可控的图像生成。CGAN: Image-to-Image Translation with Conditional Adversarial Networkshttps://arxiv.org/abs/1611.07004
风格迁移和图像编辑：将图像从一个风格转换为另一个风格的方法。艺术创作、图像编辑和图像增强。

CycleGAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkshttps://arxiv.org/abs/1703.10593
生成多模态内容：多模态内容，如图像与文本、图像与音频等的关联。比如说，运用StackGAN将对于简单物体（如花鸟）的文字描述转化为现实图片。VIT后时代的多模态大模型CLIP。

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networkshttps://arxiv.org/abs/1612.03242

CLIP: Learning Transferable Visual Models From Natural Language Supervisionhttps://arxiv.org/abs/2103.00020