1.看一下Unet网络的讲解_哔哩哔哩_bilibili,了解Unet网络
2.看一下【生成式AI】Diffusion Model 原理剖析 (1/4)_哔哩哔哩_bilibili,起码要看前3/6个视频
3.看一下超详细的扩散模型(Diffusion Models)原理+代码 - 知乎 (zhihu.com),先了解DDPM
4.运行代码:超详细的扩散模型(Diffusion Models)原理+代码 - 知乎 (zhihu.com)
5.看一下一文读懂Stable Diffusion 论文原理+代码超详细解读 - 知乎 (zhihu.com)
学姐给的Unet框架图(应用在扩散模型中的),很清楚,在交叉注意力机制中,V是文本嵌入的原因是文本提供了要引入到图像中的语义信息。
orz我就学到这里了,有佬推荐一些容易理解的博客嘛