下面这个图就是典型的1.5模型生成过程,SD的核心来源于Latent Diffusion这个工作。
SD在UNet中引入text condition来实现基于文本生成图像。它先采用一个autoencoder将图像压缩到latent空间。然后用扩散模型来生成图像的latents,最后送入autoencoder的decoder模块就可以得到生成的图像。
图生图的流程:
输入:图像 + prompt
输出:图像
这个流程的本身,就是加入了一个图像的参考。流程的本质就是让图像变成一个latent的输