1、Stable Diffusion 万字长文详解稳定扩散模型
https://zhuanlan.zhihu.com/p/669570827硬核解读Stable Diffusion(完整版)
2、Stable Diffusion 2
版本2相比版本1的更新有:
-
更新文本编码器为OpenCLIP
-
默认分辨率支持两种,512和768均支持
-
提出了一个图像到图像的4倍超分模型(Super-resolution Upscaler Diffusion Models)
-
提出了深度图到图像的生成模型(Depth-to-Image Diffusion Model)
-
更新了图像修复模型(Inpainting Diffusion Model)
总的来说,v2相比v1.5变化不大,在开源模型中热度不高。
3、Stable Diffusion XL
https://zhuanlan.zhihu.com/p/650717774
相比之前各个版本的SD,SDXL 的主要改进之处在于:
-
使用了更大的Unet backbone,大约是之前版本SD的3倍
-
使用了几个简单但是非常有效的训练技巧,包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等
-
增加了一个refinement 模块来改善生成图片的质量
4、SDXL Turbo(实时生图)
实时AI绘画模型SDXL Turbo核心基础知识详解-CSDN博客
SDXL Turbo模型本质上依旧是SDXL模型,其网络架构与SDXL一致,可以理解为一种经过蒸馏训练后的SDXL模型。不过SDXL Turbo模型并不包含Refiner部分,只包含U-Net(Base)、VAE和CLIP Text Encoder三个模块。
SDXL Turbo用的是名为ADD(Adversarial Diffusion Distillation)的蒸馏方案,架构见图6。ADD是两个损失函数来进行蒸馏的,第一个是Adversarial loss(对抗损失),用了一个Discriminator(判别器)来判断生成图片跟真实图片的区别,同时避免其他蒸馏方法中出现的模糊和其他人造的感觉。第二个是采用常规的Distillation loss(蒸馏损失),拿现有的DM(扩散模型)冻结参数后,作为Teacher,去跟Student(目标模型)做Distillation loss,尽量让两者输出一致。SDXL-Turbo的两个loss的ADD方案,一个去确保生成质量(Adversarial loss,GAN的核心思想),一个去确保跟原模型的一致性(Distillation loss)
同样实现实时生图的技术: Latent Consistency Models(LCM)
5、Stable Diffusion 3
一文解读:Stable Diffusion 3究竟厉害在哪里?-CSDN博客
技术路线的解读分为两个方面进行,一是关于flow matching的改进;另一方面是在Diffusion Transformer(Dit)上的具体设计。(待)