AIGC产业中的图片生成的技术发展及原理

最新推荐文章于 2025-03-09 14:50:02 发布

铁墩墩

最新推荐文章于 2025-03-09 14:50:02 发布

阅读量1k

点赞数

文章标签： AIGC 人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_38854751/article/details/131133169

版权

文章探讨了图像生成技术的发展，从GAN到自回归模型，再到扩散模型，其中CLIP在跨模态生成中的作用显著。扩散模型如StableDiffusion和MidjourneyV5等在图像质量和多样性上有所提升，而CLIP提供了更好的文本-图像对齐。然而，这些模型也面临计算复杂度和数据需求的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

运用人工智能技术,将指定的数据进行单模态或跨模态生成图像的过程.由于目标和输入模态的不同,图像生成分为3种,分别是image composition(图像合成),image-to-image(给定的图片生产新图片),text-to-image(文本生成图像).

在平面设计,游戏制作,动画等领域都有广泛的应用,而且在医学影像合成与分析,化合物合成和药物发现等方面,图像生成将具有很大的潜力.

图像生成的技术发展阶段大致经历了以下几个阶段:
第一个阶段:GAN生成阶段

生成对抗网络（GAN）是上一代主流图像生成模型，GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力，使生成式网络的数据愈发趋近真实数据，从而达到生成逼真图像的目的。但在发展过程中，GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。

第二个阶段：自回归生成阶段

自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验，利用Transformer结构中的自注意力机制能够优化GAN的训练方式，提高了模型的稳定性和生成图像的合理性，但基于自回归模型的图像生成在推理速度和训练成本方面的问题，使其实际应用受限。

第三个阶段：扩散模型生成阶段

对于前代模型在性能方面的局限性，扩散模型（Diffusion Model）已经使这些问题得到解决，其在训练稳定性和结果准确性的效果提升明显，因此迅速取代了GAN的应用。而对于产业应用中的大量跨模态图像生成需求，则需要结合CLIP进行，CLIP基于文本-图像对的训练方式能够建立跨