1 文生图的相关知识
1.1 简单介绍
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段:
1.2 生成模型的对比
1.3 Diffusion model的简介
1.3.1 描述
生成式模型本质上是从一组概率分布中得到另一组概率分布。如下图所示,左边是一个训练数据集,里面所有的数据都是从某个数据 中独立同分布取出的随机样本。右边就是其生成式模型(概率分布),在这种概率分布中,找出一个分布使得它离 的距离最近。接着在
上采新的样本,可以获得源源不断的新数据。
【DDPM扩散模型公式推理----扩散和逆扩散过程_ddpm 反向公式推导-CSDN博客】
1.3.2 感兴趣的公式推导
(1)利用贝叶斯公式,写成联合概率得到形式,得到分式形式;
(2)将分式的分子的第一项按照联合概率公式展开,第二项按条件概率展开;
(3)分式的分母按条件概率展开;
(4)结合马尔科夫性,即可得到上式。
1.4 文生图基础组成
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
1.4.1 提示词
提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家。
1.4.2 Lora
Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
1.4.3 ComfyUI
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。
1.4.4 参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
2 从零入门AI生图原理&实践
1.1 速通指南
对于小白按照流程操作即可(Datawhale (linklearner.com)),还可参考各种大神的笔记:
(1)https://blog.csdn.net/linghyu/article/details/140971933?spm=1001.2014.3001.5501
(2)https://blog.csdn.net/qq_74869852/article/details/140971871
1.2 魔搭热门文生图AI应用集锦
1.3 下一步
按照步骤操作,很快就可以得到相应结果,对于初学者来说非常友好。下一步就是了解baseline代码的结构,学习相关的知识,阅读优秀笔记,完成后续打卡任务!