生成扩散模型漫谈：信噪比与大图生成（下）

最新推荐文章于 2025-10-06 00:07:41 发布

原创

最新推荐文章于 2025-10-06 00:07:41 发布 · 1.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #机器学习 #深度学习

本文探讨了如何使用低分辨率训练的扩散模型生成高分辨率图像，无需额外训练。通过将低分辨率模型上采样作为引导信号，并结合CNN的平移不变性，实现了直接使用低分辨率模型生成高分辨率图像。这种方法被称为Upsample Guidance，其核心思想是利用低分辨率模型保留的纹理细节来补充上采样图像的缺失细节。实验结果表明，尽管生成效果不及直接训练的高分辨率模型，但优于直接放大低分辨率图像，且推理成本相对较低。

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

上一篇文章《生成扩散模型漫谈：信噪比与大图生成（上）》中，我们介绍了通过对齐低分辨率的信噪比来改进 noise schedule，从而改善直接在像素空间训练的高分辨率图像生成（大图生成）的扩散模型效果。而这篇文章的主角同样是信噪比和大图生成，但做到了更加让人惊叹的事情——直接将训练好低分辨率图像的扩散模型用于高分辨率图像生成，不用额外的训练，并且效果和推理成本都媲美直接训练的大图模型！

这个工作出自最近的论文《Upsample Guidance: Scale Up Diffusion Models without Training》[1]，它巧妙地将低分辨率模型上采样作为引导信号，并结合了 CNN 对纹理细节的平移不变性，成功实现了免训练高分辨率图像生成。

思想探讨

我们知道，扩散模型的训练目标是去噪（Denoise，也是 DDPM 的第一个 D）。按我们的直觉，去噪这个任务应该是分辨率无关的，换句话说，理想情况下低分辨率图像训练的去噪模型应该也能用于高分辨率图像去噪，从而低分辨率的扩散模型应该也能直接用于高分辨率图像生成。

有这么理想吗？笔者用之前自己训练的 128*128 的人脸图像（CelebA-HQ）扩散模型试了一下，即直接将它当成 256*256 的模型来推理，生成结果的画风是这样的：

▲ 将128分辨率的扩散模型当256分辨率用的生成效果

可以看到，生成结果有两个特点：

1. 生成结果已经完全不是人脸图，说明 128*128 训练的去噪模型无法直接当成 256*256 的来用；

2. 生成结果虽然不理想，但很清晰，没有明显模糊或者棋盘效应，且保留了一些人脸的纹理细节。

我们知道，直接将小图放大（上采样），就是一个最最基本的大图生成模型，但取决于上采样算法的不同，直接放大后的图片通常都会有模糊或者棋盘效应的出现，即缺乏足够的纹理细节。这时候一个“异想天开”的想法是：既然小图放大缺乏细节，而直接将小图模型当大图模型推理会保留一些细节，那么我们可否用后者给前者补充细节？

这就是原论文所提方法的核心思想。