CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型...

0a7c6e9bd5a11f39cb4f37e92bc001ff.gif

©作者 | 杜伟、陈萍

来源 | 机器之心

斯坦福大学联合谷歌大脑使用「两步蒸馏方法」提升无分类器指导的采样效率,在生成样本质量和采样速度上都有非常亮眼的表现。

去噪扩散概率模型(DDPM)在图像生成、音频合成、分子生成和似然估计领域都已经实现了 SOTA 性能。同时无分类器(classifier-free)指导进一步提升了扩散模型的样本质量,并已被广泛应用在包括 GLIDE、DALL·E 2 和 Imagen 在内的大规模扩散模型框架中。

然而,无分类器指导的一大关键局限是它的采样效率低下,需要对两个扩散模型评估数百次才能生成一个样本。这一局限阻碍了无分类指导模型在真实世界设置中的应用。尽管已经针对扩散模型提出了蒸馏方法,但目前这些方法不适用无分类器指导扩散模型。

为了解决这一问题,近日斯坦福大学和谷歌大脑的研究者在论文《On Distillation of Guided Diffusion Models》中提出使用两步蒸馏(two-step distillation)方法来提升无分类器指导的采样效率。

在第一步中,他们引入单一学生模型来匹配两个教师扩散模型的组合输出;在第二步中,他们利用提出的方法逐渐地将从第一步学得的模型蒸馏为更少步骤的模型。

利用提出的方法,单个蒸馏模型能够处理各种不同的指导强度,从而高效地对样本质量和多样性进行权衡。此外为了从他们的模型中采样,研究者考虑了文献中已有的确定性采样器,并进一步提出了随机采样过程。

98460e67d2674b0b57f7b47a0aa6d866.png

论文标题:

On Distillation of Guided Diffusion Models

论文链接:

https://arxiv.org/pdf/2210.03142.pdf

研究者在 ImageNet 64x64 和 CIFAR-10 上进行了实验,结果表明提出的蒸馏模型只需 4 步就能生成在视觉上与教师模型媲美的样本,并且在更广泛的指导强度上只需 8 到 16 步就能实现与教师模型媲美的 FID/IS 分数,具体如下图 1 所示。

7d46eb64f6e90fe9772cc663d6c18654.png

此外,在 ImageNet 64x64 上的其他实验结果也表明了,研究者提出的框架在风格迁移应用中也表现良好。

1b2b4ac3ad8199cdc2247661814fd3a3.png

方法介绍

接下来本文讨论了蒸馏无分类器指导扩散模型的方法 ( distilling a classifierfree guided diffusion model)。给定一个训练好的指导模型,即教师模型 之后本文分两步完成。

第一步引入一个连续时间学生模型 ,该模型具有可学习参数 ,以匹配教师模型在任意时间步 处的输出。给定一个优化范围 [w_min, w_max],对学生模型进行优化:

e5e1e41fa2d1e2d53835fc5cba84a43d.png

其中,。为了合并指导权重 ,本文引入了 一个 - 条件模型,其中 作为学生模型的输入。为了更好地捕捉特征,本文还对 应用傅里叶嵌入。此外,由于初始化在模型性能中起着关键作用,因此本文初始化学生模型的参数与教师模型相同。

在第二步中,本文将离散时间步(discrete time-step)考虑在内,并逐步将第一步中的蒸馏模型 转化为步数较短的学生模型 ,其可学习参数为 ,每次采样步数减半。

设 为采样步数,给定 和 ,然后根据 Salimans & Ho 等人提出的方法训练学生模型。在将教师模型中的 步蒸馏为学生模型中的 步之后,之后使用 步学生模型作为新的教师模型,这个过程不断重复,直到将教师模型蒸馏为 步学生模型。

步可确定性和随机采样:一旦模型 训练完成,给定一个指定的 ,然后使用 DDIM 更新规则执行采样。

实际上,本文也可以执行 步随机采样,使用两倍于原始步长的确定性采样步骤,然后使用原始步长向后执行一个随机步骤。对于 ,当 时,本文使用以下更新规则。

0a4e8dceb102c49ffc74ee29c08f3388.png

0628460e1c150c8d92e8c18fd93c5f67.png

实验

实验评估了蒸馏方法的性能,本文主要关注模型在 ImageNet 64x64 和 CIFAR-10 上的结果。他们探索了指导权重的不同范围,并观察到所有范围都具有可比性,因此实验采用 [w_min, w_max] = [0, 4]。图 2 和表 1 报告了在 ImageNet 64x64 上所有方法的性能。

5f20793383a975407328596c0732a81c.png

6eb2e9f5407745f19aee40a73f61ea5f.png

本文还进行了如下实验。具体来说,为了在两个域 A 和 B 之间执行风格迁移,本文使用在域 A 上训练的扩散模型对来自域 A 的图像进行编码,然后使用在域 B 上训练的扩散模型进行解码。由于编码过程可以理解为反向 DDIM 采样过程,本文在无分类器指导下对编码器和解码器进行蒸馏,并与下图 3 中的 DDIM 编码器和解码器进行比较。

c03c9c69b45c8bdef626b1f452124cc9.png

本文还探讨了如何修改指导强度 w 以影响性能,如下图 4 所示。

ecac91b439f870a69d6a1caf475c2361.png

更多阅读

b017750d712ce36f331481e3b69e22e5.png

290096bec31133439b785addd392f3e9.png

6fe5512730022035088eba2c6ef9bfed.png

6f89d14cff4235e577de10a618ba2785.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e00af7e99810484396d63a31631ba969.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

07fed45b1463584438131b4e1f916a0b.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值