High-Resolution Image Synthesis with Latent Diffusion Models
Paper : https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
Github : https://github.com/CompVis/latent-diffusion
Overview
Pipeline:
objective
这篇文章的重点就在于,为什么从pexel space
到latent space
是可行的——在保证减少计算成本的前提下保留了大部分扩散模型的功能,在下一节Motivation
会给出解释。
论文提出的模型其实相较于一般的扩散模型没有很大区别,采用模块化设计,可以看作在原始的扩散模型输入和输出地方加了编码、解码;在预测噪声的U-Net
输入前也加入了一个domain specific encoder
做为对条件输入的编码,其实在实验里提到:对于以对齐的图