Datawhale X 魔搭 AI夏令营第四期 Task01-CSDN博客

本文链接：https://blog.csdn.net/MCAC_123/article/details/141065842

作为AI小白，已经参加了二期与三期的夏令营了，抱着继续学习的态度，接着学习。加油！！！

下面是我这次以文生图（AIGC）方向任务一的学习笔记，按照指导文件的学习大纲我分为四个方面进行进行学习的记录。

一、文生图的历史与来源

随着人工智能技术的快速发展，文生图（Text-to-Image）技术已经成为了一个备受瞩目的领域。它利用自然语言处理技术，将文字描述转化为生动的图像，打破了传统图像创作的限制，为我们带来了无限可能。

1.文生图技术的崛起

文生图技术的崛起可以追溯到2014年，当时深度学习技术的兴起为文生图技术的发展奠定了基础。随着计算机视觉和自然语言处理技术的不断进步，文生图技术逐渐从概念走向实践。2016年，OpenAI发布了名为“Generative Adversarial Networks”（GANs）的生成对抗网络模型，为文生图技术的发展注入了新的活力。GANs模型通过训练两个神经网络——生成器和判别器，实现了从文本描述到图像的映射。

2.2022年文生图技术的重要进展

2022年是文生图技术的爆发年。在这一年里，各种先进的文生图模型纷纷涌现，如DALL-E 2、Stable Diffusion和Midjourney等。这些模型在图像生成质量、速度和多样性等方面都取得了显著突破。

DALL-E 2是由OpenAI推出的一款强大的文生图工具，它可以根据用户输入的文本描述生成高质量的图像。Stable Diffusion则是一款基于扩散模型的文生图工具，它在生成速度和图像质量上都表现优异。Midjourney则是一款注重图像多样性的文生图工具，它可以根据用户输入的文本描述生成多种不同风格的图像。

我个人在国内镜像网站试过Midjourney的文生图功能，对当时的我来说算是相当惊艳。能够按照自己的语言描述生成自己想要的图片和海报是多么超前的事情。

这些先进的文生图模型不仅为我们带来了更加丰富的视觉体验，还在许多领域展现出了巨大的应用潜力。例如，在创意设计领域，设计师可以利用文生图技术快速生成多样化的设计方案；在娱乐产业，文生图技术可以为游戏、电影等提供丰富的视觉素材；在科研领域，文生图技术可以帮助研究人员可视化复杂的数据和模型。如图所示为大模型从诞生的历史演变，近几年发展相当迅速。

3.2024年文生图技术的发展趋势

随着技术的不断进步和应用场景的不断拓展，文生图技术在2024年将继续迎来新的发展机遇。2024年6 月 13 日，Stability AI 发布了 Stable Diffusion 3 Medium（下文简称 SD3 Medium），官方声称是“迄今为止最先进的开源模型”，其性能甚至超过了 Midjourney 6。Stability AI 公司表示 SD3 Medium 可以根据用户输入的文本描述，重点克服了文生图模型中手部和脸部的挑战，生成足以乱真的的图像。

SD3 Medium 还利用其底层的 Diffusion Transformer 架构，高精度地整合了文字元素。SD3 Medium 的另一个特点是易于使用。相比较一些资源密集型 AI 模型，SD3 Medium 可以在消费级显卡上运行，可以加速普及适配。

首先，文生图技术将更加注重图像的真实性和细节表现。通过引入更先进的生成对抗网络模型、扩散模型等技术手段，未来的文生图工具将能够生成更加逼真、细腻的图像，满足用户对高质量视觉内容的需求。

其次，文生图技术将更加注重个性化和定制化。未来的文生图工具将能够根据用户的喜好、风格和需求，生成符合用户需求的个性化图像。这将为用户提供更加丰富的视觉体验和更多的创作可能。

最后，文生图技术将更加注重跨模态生成。未来的文生图工具将不仅限于从文本到图像的映射，还将拓展到其他模态之间的转换，如从语音到图像、从视频到图像等。这将为文生图技术带来更多的应用场景和发展空间。

这是我个人对文生图方面做的一些调研，做了一个简短的叙述。

二、文生图的基本知识与拓展

1. 什么是以文生图？

以文生图是AIGC ( AI Generated Content ）框架中的一个关键技术，通过文字描述，将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势，具有广泛的应用前景，可以为人们提供更便捷高效的绘图解决方案。

2. 文生图的功能

1>文字转图像：将输入的文字转化为图像效果，使文本更加生动。
2>图像定制：用户可以选择不用的颜色，字体，背景，作画风格等，定制自己喜欢的图像。

3. 文生圈大模型的原理是什么？

如今，最火热的文本转图像横型主要是Compvis、Stability和LAION等公司研发的Stable diffusion模型，一个完全开源的模型（代码，数据，模型全部开源）。

Stable diffusion模型是基于Latent Diffusion Models（潜在扩散模型，LDMs）的文生图模型，在UNet中引入了text condition来实现基于文本生成图像的功能。Stable diffusion模型的主体结构如图1所示，主要包括三个模块：

（1）autoencoder :encoder将图像压缩到 latent空间，而 decoder将 latent解码为图像；

（2）CLP text encoder：该 CLIP的text encoder是一个 transformer模型，提取输入text的text embeddings，通过 cross attention方式送入扩散模型 UNet中作为 condition；

（3）UNet：扩散横型的主体，用来实现文本引导下的latent生成。

图1 ：Stable diffusion模型主体结构

如图2所示为对应的Stable diffusion模型网络结构图。

图2：Stable diffusion模型网络结构图

根据上述模型结构图可以看出，Stable diffusion模型在生成图片的过程中，主要包括两个输入一是提示词（prompt），二是种子（作用是生成噪声图），固定的种子和固定的分辦率生成的噪声图是固定的，模型以这个为基础进行图片生成。其中噪声图并不是一张图片，而是在潜在空间中的一种表示。为了便于理解，绘制为如图3所示的示意图。

预处理潜空间