Latent Diffusion之PSLD-论文阅读记录

文章探讨了LatentDiffusion模型中编码器的多对一问题导致的细节恢复不足,介绍了PSLD模型通过引入惩罚项来确保反向过程按预期进行,解决了人脸特征等问题。同时提及了类似算法如LDIR和STSL作为补充。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    前言   

         Latent Diffusion是在潜在空间进行扩散操作的模型,我们都知道在Latent Diffusion中有一个Autoencoder自编码器,它被用于将输入图片映射到潜在空间并将处理后的潜在信息返回到图像域,但在编码的过程中,由于编码器是实现多对一的映射,例如:多个不同的中年男性都被映射成相同的latenti空间的信息。

        在上图中,1和a是一对一的关系,而2,3和b是多对一 的关系,因为这种情况,在反向过程中,图像的生成路径就不止一条。如果我们输入的信息是2,在潜在空间中呗映射成b,在反向过程中由b可以一步步生成2,也可以一步步生成3,所以在应用Latent Diffusion进行去噪去模糊的工作时,会发现在细节部分(例如人脸的特征)不能很好的接近ground truth。针对这一问题PSLD对模型进行了改动,通过惩罚不是encoder和decoder固定点的恢复路径来保证在其按照我们希望的方向进行恢复。

PSLD

      我们都知道,在像素域的操作中使用前向随机微分方程和反向随机微分方程,分别为:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值