Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&实践_task 1

本文链接：https://blog.csdn.net/qq_74421982/article/details/141107935

一. 基础知识

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

1. 输入提示词

用户提供描述图像内容和风格的文本提示词。

2. （可选）提供参考图像

用户可以选择提供一张或多张参考图像，为模型提供视觉参考。

3. 使用Lora进行模型训练

通过LoRA技术对预训练模型进行微调，使其适应新的任务需求。

4. 图像生成

使用经过微调的模型，根据提示词（和参考图像）生成最终的图像。

提示词可以包含的内容有主题或主体、背景或环境、细节描述、风格或艺术效果、色彩、情感或氛围。

是一种用于微调大型预训练模型的技术，特别在处理生成任务和迁移学习时具有显著优势。其核心思想是通过引入低秩矩阵（Low-Rank Matrices）来高效地调整模型参数，从而使模型能够适应新的任务或数据集，而不需要重新训练整个模型。这种方法减少了计算和存储开销，同时保持了模型的强大性能。

在LoRA中，模型的某些权重矩阵（如自注意力模块中的投影矩阵）会被分解为两个低秩矩阵的乘积。这意味着原本高维的矩阵可以被拆解为两个低维矩阵。这种低秩分解减少了训练参数的数量，使得微调过程更为轻量级。

具体来说，假设一个权重矩阵W被分解为两个低秩矩阵A和 B: $W′=W+ΔW$ ，其中 $△W = A × B$ ，这里的 A 和 B 都是低秩矩阵。

ComfyUI 是一种用于图像生成和编辑的用户界面，设计目的是让用户能够更直观、简单地使用复杂的深度学习模型进行图像处理和生成任务。它通常与生成式模型（如扩散模型或GANs）配合使用，提供了一个友好且功能强大的交互界面，允许用户无需深入编程知识即可完成高质量的图像生成。

模块化设计

可视化调试

灵活的配置

兼容性

简化部署

快速原型设计

教育与培训

研究与开发

工业部署

参考图控制是一种用于指导图像生成过程的技术，它允许用户提供一张或多张参考图像，以影响生成的最终图像。通过这种技术，用户可以更精确地控制生成图像的细节，如图像的结构、颜色、风格等。特别是在生成模型（如扩散模型）中，参考图控制通过提供额外的输入信号，使得生成结果更符合用户的预期。

ControlNet 是一种基于参考图控制的技术组件，它附加在预训练的扩散模型（如 Stable Diffusion 模型）上，帮助模型更精确地执行特定任务。ControlNet 可以通过姿势关键点、分割图、深度图等控制信号引导生成过程，使得用户可以在生成图像的过程中施加更多的控制和指导。

参考图控制类型	简介
OpenPose姿势控制	输入是一张姿势图片（或者使用真人图片提取姿势）作为AI绘画的参考图，输入prompt后，之后AI就可以依据此生成一副相同姿势的图片；
Canny精准绘制	输入是一张线稿图作为AI绘画的参考图，输入prompt后，之后AI就可以根据此生成一幅根据线稿的精准绘制。
Hed绘制	Hed是一种可以获取渐变线条的线稿图控制方式，相比canny更加的灵活。
深度图Midas	输入是一张深度图，输入prompt后，之后AI就可以根据此生成一幅根据深度图的绘制。
颜色color控制	通过参考图控制和颜色控制，实现更加精准和个性化的图像生成效果。