干货分享:为什么stable diffusion训练用ddpm, 采样用ddim呢?

前言

回忆一下DDPM,实质上它的推导过程应是如下的:

其中, 是单纯的高斯分布的推导,相当于一个序列过程的归纳法推导。 在DDPM中采用的是[贝叶斯公式]。

而过程则是用对进行一个估测,也就是用前向过程反过来对进行一个估测。

最后的训练和推理过程如下

这是根据生成模型的变分下限推导出来的,变分下限的第一项是diffusion正向过程自带完成的,第二项和第三项都可以用训练中对噪声的MSE来最小化从而实现生成模型对原真实数据分布的逼近。

的马尔可夫性这一强假设。只是中间推导的时候用到了这个东西,也就是在 和的过程中用到了和马尔可夫性。那么我们想,是不是可以跳过这个模型和马尔可夫性的假设,也推导出。答案是可以。

只要

  1. 跳过 p(z_t|x)的推导,直接假设出p(z_t|x)$。

  2. ,不采用贝叶斯估计,也就没有的使用,而是用另一种方法去得到的描述即可。

那么为什么我们要这样做呢?这不是吃饱了撑着吗?原本的DDPM有什么问题呢?事实上就是,训练过程从0到T(一般T=1000),再从T去噪到0,其实我们可以忍受这么长的时间,毕竟是训练。但是对于推理,要从T 到0,如果采样数据(比如图片如果是高分辨率的)大一点,那么时间就会很长,在一些任务中,我们没有这么长的时间给模型去推理。所以如果能把马尔可夫性这个假设去掉,我们就可以在采样的时候进行跳步,比如T→T−20→T−40→⋯→20→0。这样相当于把时间缩短了20倍。因此,是十分有意义的工作。

回到前面,对于第一点,跳过 的推导,直接假设出 这个很简单,我们直接假设是一个高斯分布,即

好的,以下是您提供的内容,使用带有美元符号的 Markdown 格式表示其中的公式:

注意,这里的 和 DDPM 里面的没有任何关系,是一个新的独立符号,只是便于对照,写成一样的。它也不是 的累乘,而只是一个单纯的符号,因为这里我们没有对 进行任何的假设,也没有建模。

这个第一点是解决了,但是第二点就有点头疼了,一般看到这样的东西就是想用贝叶斯,把它从后验估计转化为先验估计来算。但是现在不行了,因为没有了 ,相当于假设给的更少了,约束少了,很自然我们知道,后续得到的这个结论“自由度”也会更高,更不确定(因为没有了马尔可夫性的约束)。

那么对于第二点,我们看看我们手上的工具,我们有了 , ,要得到 转化为 和 的形式,从而求出来。

结论是当然可以,可以写成联合分布积分求边际分布的形式

现在这个式子就写出来了,可以我们知道 和 ,又有一个这样的等式(虽然是个积分),可以把 给“逼”出来,约束出来,好像都不是很严谨的说法,就是算出来。

但是,如果单纯的这样算,这个 的形式可以是千奇百怪,我们必须给它一点约束假设,那就与 DDPM 一样,我们认为 也是一个高斯分布,即

其中 是系数,为什么要这样假设,因为根据 DDPM, 也只有期望是与 有关的,这样才能用神经网络去拟合逼近,这是生成模型的一个特性。我们希望去学的也就是这个“重构”或者说生成的分布的期望。

对于 ,用高斯重采样可以看成

对于 和 可以看成

则 的重采样可以看成

我们知道 ,,且两者独立,所以它们是独立同分布的,因此有

所以有,对比上式与 的重采样,,因为有

所以我们可以得到

我们发现系数变量有三个 ,而约束等式只有两个,因此一定有一个自由变量。这也说明了,我们去掉了马尔可夫性这个约束后,得到的 一定有一个自由变量,即这个模型中的参数并不都是确定的。

我们将 作为那个自由变量,可以解得:因此我们就得到了我们想要的

对比一下DDPM的

当我们把 带入 DDIM 得到的式子中,我们会发现 DDIM 的 和 DDPM 的 是一样的。

补充:这里我们可以定义一下, 。

这里说明了 DDPM 中的 和马尔可夫性给 带来的约束条件就是但是反过来,我们令 DDIM 中的 并不能得到

这样的结论。因为我们前面的推导中根本没有定义 这样的东西,而且这个 和 DDPM 里面的根本不是同一个东西。

我们现在有了 ,那么还是和 DDPM 一样,我们希望的是 ,我们用 的反向来估计一下 x,从而得到 。

则有

代入

中,则得到

那么我们希望优化的目标是

其中我们定义神经网络拟合的 为

根据公式:

则有这就是DDIM训练的时候用的损失函数。

讨论一下 的选取。
前面讨论过,如果 则就与 DDPM 的损失函数和形式一样了。而如果我们令 这就有意思了,此时 就是一个确定性的过程,这时候这个模型就称为 DDIM(前面说的这些都是一个一般形式的模型,当 时,模型就是 DDIM;当 时,模型就是 DDPM)。

讨论一下加速采样过程
此时得到的

不是依赖马尔可夫性,所以可以跳步向前采样,

则此时采样变成了

这里的 和 之间可以间隔很多步,比如 20、50 等。

最后作者经过实验发现,减小采样步数可以加速生成,使图片更加平滑,但会损失多样性;而减小 能增加多样性。因此,在减少采样步数的同时,应适当减小 的值,以保证图片生成质量。反过来想,如果在采样步数少的情况下还增大 ,增加了噪声的影响,那么生成的质量可能也会不尽人意。

这一点有些反直觉,减小 反而能增加多样性,但确实如此。采样步数的设计和 的选取是 DDIM 设计中非常重要的超参数,需要仔细设计。

这个DDIM的推导主要是建立一种更一般的框架,通过选择合适的,得到了DDPM和DDIM模型,同时还把推理采样的速度提升了,是diffusion model中非常重要的一步。

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以点击下方免费领取!

在这里插入图片描述

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友,可以点击下方卡片免费领取!

在这里插入图片描述

精品AIGC学习书籍手册

书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

在这里插入图片描述

要使用stable diffusion训练出自己专属的人像模型,需要按照以下步骤进行操作: 1. 数据收集:首先,需要收集足够数量和多样性的人像图片,这些图片应该包括各种不同的表情、角度和光照条件。这些图片将作为训练数据来训练模型。 2. 数据预处理:对收集到的数据进行预处理,包括裁剪、调整大小和格式转换等。确保所有的图片在输入到模型之前具有相同的尺寸和格式。 3. 网络架构设计:根据需要训练的人像模型来设计网络架构。可以选择使用现有的深度学习网络架构,如ResNet或VGG等,也可以自定义网络架构。这个网络将用于提取人像图片的特征。 4. 模型训练:使用稳定扩散(stable diffusion)方法训练模型。稳定扩散是一种用于生成对抗网络(GAN)的训练方法,通过在生成器(生成人像)和判别器(判断生成的图片是否为真实人像)之间进行迭代训练来提高生成的效果。 5. 优化与调参:在训练过程中,需要进行优化和调参,以提高模型的准确性和生成人像的质量。可以尝试不同的学习率、批量大小和训练迭代次数等参数,以找到最佳的配置。 6. 模型评估:在完成模型训练后,需要对生成的人像进行评估。可以使用一些评估指标,如峰值信噪比(PSNR)和结构相似度指标(SSIM),来评估生成的人像与真实人像之间的相似度。 7. 继续优化:如果评估结果不理想,可以根据需要进行进一步的优化。这可能包括增加训练数据的数量、改进网络架构或调整参数等。 通过以上步骤,就可以使用stable diffusion方法训练出自己专属的人像模型。这个人像模型可以用于生成逼真的人像,应用于各种创作和设计领域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值