一. 基础知识
1.1 文生图发展历史
1.2 文生图基础知识
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
1.2.1 文生图流程图
1. 输入提示词 | 用户提供描述图像内容和风格的文本提示词。 |
2. (可选)提供参考图像 | 用户可以选择提供一张或多张参考图像,为模型提供视觉参考。 |
3. 使用Lora进行模型训练 | 通过LoRA技术对预训练模型进行微调,使其适应新的任务需求。 |
4. 图像生成 | 使用经过微调的模型,根据提示词(和参考图像)生成最终的图像。 |
1.2.2 提示词
提示词可以包含的内容有主题或主体、背景或环境、细节描述、风格或艺术效果、色彩、情感或氛围。
1.2.3 Lora
1.2.3.1 介绍
是一种用于微调大型预训练模型的技术,特别在处理生成任务和迁移学习时具有显著优势。其核心思想是通过引入低秩矩阵(Low-Rank Matrices)来高效地调整模型参数,从而使模型能够适应新的任务或数据集,而不需要重新训练整个模型。这种方法减少了计算和存储开销,同时保持了模型的强大性能。
1.2.3.2 基本原理
在LoRA中,模型的某些权重矩阵(如自注意力模块中的投影矩阵)会被分解为两个低秩矩阵的乘积。这意味着原本高维的矩阵可以被拆解为两个低维矩阵。这种低秩分解减少了训练参数的数量,使得微调过程更为轻量级。
具体来说,假设一个权重矩阵W被分解为两个低秩矩阵A和 B: ,其中
,这里的 A 和 B 都是低秩矩阵。
1.2.4 ComfyUI
1.2.4.1介绍
ComfyUI 是一种用于图像生成和编辑的用户界面,设计目的是让用户能够更直观、简单地使用复杂的深度学习模型进行图像处理和生成任务。它通常与生成式模型(如扩散模型或GANs)配合使用,提供了一个友好且功能强大的交互界面,允许用户无需深入编程知识即可完成高质量的图像生成。
1.2.4.2 主要特性
模块化设计
可视化调试
灵活的配置
兼容性
简化部署
1.2.4.2 应用场景
快速原型设计
教育与培训
研究与开发
工业部署
1.2.5 参考图控制
参考图控制是一种用于指导图像生成过程的技术,它允许用户提供一张或多张参考图像,以影响生成的最终图像。通过这种技术,用户可以更精确地控制生成图像的细节,如图像的结构、颜色、风格等。特别是在生成模型(如扩散模型)中,参考图控制通过提供额外的输入信号,使得生成结果更符合用户的预期。
ControlNet 是一种基于参考图控制的技术组件,它附加在预训练的扩散模型(如 Stable Diffusion 模型)上,帮助模型更精确地执行特定任务。ControlNet 可以通过姿势关键点、分割图、深度图等控制信号引导生成过程,使得用户可以在生成图像的过程中施加更多的控制和指导。
参考图控制类型 | 简介 |
OpenPose姿势控制 | 输入是一张姿势图片(或者使用真人图片提取姿势)作为AI绘画的参考图,输入prompt后,之后AI就可以依据此生成一副相同姿势的图片; |
Canny精准绘制 | 输入是一张线稿图作为AI绘画的参考图,输入prompt后,之后AI就可以根据此生成一幅根据线稿的精准绘制。 |
Hed绘制 | Hed是一种可以获取渐变线条的线稿图控制方式,相比canny更加的灵活。 |
深度图Midas | 输入是一张深度图,输入prompt后,之后AI就可以根据此生成一幅根据深度图的绘制。 |
颜色color控制 | 通过参考图控制和颜色控制,实现更加精准和个性化的图像生成效果。 |
1.3 实战训练
Step0:开通阿里云PAI-DSW试用
-
开通免费使用
如果这一步授权失败,可跳过此步骤,继续往下进行。
Step1: 报名赛事
赛事链接:https://tianchi.aliyun.com/competition/entrance/532254
Step2:在魔搭社区创建PAI实例!
Step3:30 分钟体验一站式 baseline!
Step4: 微调结果上传魔搭
链接:https://www.modelscope.cn/models/create
Step5:关闭PAI实例!!!!!
链接:https://www.modelscope.cn/my/mynotebook/authorization