手把手教你入门绘图超强的AI绘画程序,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包(文末可获取)
【AIGC】Stable Diffusion的建模思想、训练预测方式快速
在这篇博客中,将会用机器学习入门级描述,来介绍Stable Diffusion的关键原理。目前,网络上的使用教程非常多,本篇中不会介绍如何部署、使用或者微调SD模型。也会尽量精简语言,无公式推导,旨在理解思想。让有机器学习基础的朋友,可以快速了解SD模型的重要部分。如有理解错误,请不吝指正。
大纲
- 关键概念
- 模型结构及关键组件
- 训练和预测方式
关键概念
名词解释
Stable Diffusion
之所以叫Stable,是因为金主公司叫StabilityAI。
其基础模型是Latent Diffusion Model(LDM),也是本文主要介绍的部分。
模型任务
- text-2-img:输入文本描述、输出图像
- img-2-img:输入图片及其他文本描述,输出图像
总的来说,不论是输入是文字还是图片,都可以称为是“condition”,用于指引图像生成的“方向”。因此,SD模型的任务,可以统称为是cond-2-img任务。
模型结构与关键组件
模型结构
LDM论文结构图,初看时会有点懵,但稍微理解后还是非常清晰准确的。先初步介绍几个大的模块。建议把这张图截图固定在屏幕上,再继续浏览下面的内容。
整体输入输出
上图中最左侧的x xx和x ~ \widetilde{x}
是模型的输入与输出,形如[ W , H , C ] [W, H, C][W,H,C]的三维张量,代表一张图像的宽、高和通道数。
需要注意,这里的输入x xx,并不是模型img-2-img中的输入图像,而是模型训练时的原始图像输入。img-2-img的输入图像,是上图中最右侧的Conditioning模块中的images。
像素空间与隐空间
所谓空间,可以理解为数据的表示形式,通常有着不同的坐标轴。
- 像素空间(Pixel Space),上图左侧,红框部分。通常是人眼可以识别的图像内容。
- 隐空间(Latent Space)