Diffusion生成模型的框架: 包括3个模块: Text encoder:将文本转化成embeddingGeneration model:输入噪声z和condition,输出latent space featureDecoder:输入latent space feature,输出图像 stable diffusion,DaLLE2,Imagen都是这样的框架 stable diffusion DaLLE2 Imagen stable diffusion 结构图: 训练和预测的过程如下:(推导过程见参考2,写的很详细) 训练流程: 预测流程: 参考: [1] 李宏毅讲解生成式AI(大模型,文本,图像)[2] stable diffusion原理解读通俗易懂,史诗级万字爆肝长文,喂到你嘴里