Datawhale X 魔搭 AI夏令营：开启AI生图之旅-CSDN博客

本文链接：https://blog.csdn.net/2201_75731519/article/details/141202663

TASK1

文生图概述及其发展

什么是文生图：

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术。文生图技术经历了几个关键阶段的发展：

早期探索（20世纪60年代-20世纪90年代）：文生图概念最初出现在计算机视觉和图像处理研究中，主要依赖于规则和模板匹配，生成的图像质量有限，应用场景受限。
基于统计模型的方法（2000年代）：随着统计模型和机器学习技术的进步，研究者开始利用概率图模型和统计语言模型生成图像，技术有所提升但仍显粗糙。
深度学习的崛起（2010年代）：深度学习特别是GAN的发展使文生图技术取得重大突破，生成图像的逼真度大幅提升，如DCGAN、Pix2Pix等模型的出现推动了技术向前发展。
大规模预训练模型（2020年代）：随着CLIP、DALL-E和Stable Diffusion等大规模预训练模型的问世，文生图技术进入新阶段，能够通过简单的文本描述生成复杂高质量图像，应用领域涵盖艺术创作、广告设计和医疗诊断等。

文生图的技术演变

文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

接下来，我们简单了解下提示词、lora、ComfyUI和参考图控制这些知识点。

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

举个例子

【promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k

【负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。