StableDiffusion原理
StableDiffusion(稳定扩散)的基础是扩散模型,扩散模型是一种生成模型,用于生成与训练数据相似的数据。简单的说,扩散模型的工作方式是通过迭代添加高斯噪声来“破坏”训练数据,然后学习如何消除噪声来恢复数据。
一个标准扩散模型有两个主要过程:正向扩散和反向扩散。在正向扩散阶段,通过逐渐引入噪声来破坏图像,直到图像变成完全随机的噪声。在反向扩散阶段,使用一系列马尔可夫链逐步去除预测噪声,从高斯噪声中恢复数据。
通俗点讲原理就是:AI生成图像会经过加噪再去噪的过程,如图:
大模型:Checkpoint(检查点)这个词在不同的领域有不同的含义。在深度学习中,Checkpoint是用于描述在每次训练后保存模型参数(权重)的惯例或术语。这就像在游戏中保存关卡时你可以随时通过加载保存文件回复游戏。你可以加载保存的模型权重重新开启训练甚至可以之后进行一个推理。主模型形象一些理解的话就是画师本身,而本文中的其它模型都是调整和优化主模型的工具。
checkpoint训练过程如图
CLIP终止层数:
什么是Clip
CLIP(Contrastive Language-Image Pretraining)是由OpenAI于2021年开发的一种语言图像对比预训练模型。其独特之处在于,CLIP模型中的图像和文本嵌入共享相同的潜在特征空间,这使得模型能够直接在图像和文本之间进行对比学习。
Clip的作用
CLIP模型的作用是建立标签(关键词)和图像之间的关系.
VAE
VAE为变分自解码器,负责将加噪后的潜空间数据转化为正常的图像,主要影响的是画面的色彩质感
VAE模型的作用是通过学习潜在表示空间,将文本表示转化为图像,从而实现高质量、稳定且可复现的文本生成图像任务。在生成新的图像时,VAE可以将输入的文本表示转化为潜在变量,然后再从潜在表示空间中生成新的图像。这种基于文本生成的图像具有很高的稳定性和可复现性,因此得名“Stable Diffusion”
文生图:按照文字描述生成图片
提示词
通常指的是在生成模型中用于指导生成过程的输入信息,它可以是一段文本、一个单词、一个短语,或者是一些标签或关键词。在生成任务中,提示词通常用于定义所需生成内容的方向、主题或特征。提示词以词组为基本单位,词组间需要插入分隔符英文逗号.在Stable Diffusion中提示词可以分为两类:正向提示词和反向提示词。正向提示词用于指定希望在生成图片或文本时出现的内容或特征,而反向提示词则用于指定不希望出现的内容或特征。
提示词引导系数:反映提示词的程度,数值越高,提示词的程度越高.
什么是采样?
Stable Diffusion模型通过一种称为“去噪”的过程来生成图像,采样就是在潜在空间中逐步从随机噪声中提取出有意义的图像特征.
采样方法:AI进行图像生成的时候用的某种特定算法.
采样过程实例
迭代步数
生成图像时模型所进行的步数
增加采样步数:增加采样步数会增加生成图像的细节,使其更加清晰和精细。然而,这也会导致生成过程变慢,因为模型需要更多的迭代来生成更精细的图像。
减少采样步数:减少采样步数会降低生成图像的细节,可能导致图像模糊或含有噪点。然而,生成速度会更快,因为模型需要较少的迭代来生成图像。
宽度和高度
代表最终出图的分辨率.
生成批次:
AI不断按照同一组提示词和参数去出图的次数
随机种子
AI生成一幅画的过程是随机的,但它的每一次生成都由自己的一套描绘方式,此描绘方式会被记录成一组随机数,把它叫做一个随机种子,随机种子是控制画面内容一致性的重要参数
重绘幅度
与原图的相似度,数值越低与原图越像.