[Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models

        这篇讲解很详细,可以参考:https://zhuanlan.zhihu.com/p/634573765

        附上苏神的讲解:生成扩散模型漫谈(二十二):信噪比与大图生成(上) - 科学空间|Scientific Spaces

        其中,autoencoder的学习可以参考:https://juejin.cn/post/7238769796351639612

1、目的

        DM的train和infer均需大量的时间和显存

2、方法

                

        1)autoencoder

                        

                -> 将数据映射到感知上等效的、低维度的表示空间

                -> 只需训练一次,就可以被应用到多个DM训练过程中,也可以用于其他下游任务 (如single-image CLIP-guided synthesis)

                -> 压缩程度可选

                -> perceptual loss + patch-based adversarial objective

                -> encoder \varepsilonz = \varepsilon (x)

                -> decoder D,\tilde{x} = D(z) = D(\varepsilon (x))

                -> x \in R^{H \times W \times 3}z \in R^{h \times w \times c},下采样f = H/h = W/w = 2^{m}。LDM-1对应着pixel-based DM,LDM-4和-8最优

                -> 为了避免潜空间的方差过高,可以采用两种正则化:KL-reg和VQ-reg

        2)在潜空间上训练DM,即Latent Diffusion Models (LDMs)

                -> 

                -> \epsilon _{\theta }(\circ, t):time-conditional UNet

        3)cross-attention

                -> 用于多模态条件输入

                -> \tau _{\theta }: domain specific encoder,将y映射为中间表示\tau _{\theta }(y)\in R^{M \times d_{\tau }}

                -> 

                    

                    为UNet应用\epsilon _{\theta }后(flattened) intermediate representation

                     均为learnable映射矩阵

                -> ,同步优化\tau _{\theta }\epsilon _{\theta },其中\tau _{\theta }可以根据domain-specific experts来参数化

3、应用

        convolutional fashion,~1024^{2}px

        1)unconditional

        2)conditional (text,bounding boxes,high-resolution synthesis,...)

                -> inpainting

                -> stochastic super-resolution

                -> semantic synthesis

                -> class-conditional

                -> text-to-image

                -> layout-to-image

  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值