Inference-Time Scaling for Diffusion Modelsbeyond Scaling Denoising Steps——推理时扩展扩散模型：超越去噪步数的扩展

最新推荐文章于 2025-05-08 18:24:14 发布

Together_CZ

最新推荐文章于 2025-05-08 18:24:14 发布

阅读量1k

点赞数 30

文章标签：人工智能 Inference-Time 超越去噪步数的扩展推理时扩展扩散模型 Diffusion Denoising Scaling

本文链接：https://blog.csdn.net/Together_CZ/article/details/145258781

版权

这篇文章的主要内容可以总结如下：

研究背景与动机：

生成模型的扩展：生成模型（如扩散模型）在训练时通过增加数据、计算资源和模型规模进行扩展，遵循扩展定律。最近的研究开始探索在推理时通过增加计算资源进一步提升模型性能的可能性。
扩散模型的推理时扩展：扩散模型通过调整去噪步数来分配推理时的计算资源，但性能提升通常在几十步后趋于平缓。本文研究了如何通过搜索更好的噪声来进一步扩展扩散模型的推理时性能。

研究方法：

搜索框架：提出了一个搜索框架，通过两个设计轴来扩展推理时的计算资源：
1. 验证器：用于评估生成样本的质量，包括Oracle验证器、监督验证器和自监督验证器。
2. 算法：用于搜索更好的噪声候选，包括随机搜索、零阶搜索和路径搜索。
实验设置：在ImageNet类别条件生成和文本条件图像生成任务上进行了广泛的实验，验证了搜索框架的有效性。

主要发现：

推理时扩展的有效性：通过搜索扩展NFE（函数评估次数）可以显著提升生成样本的质量，超越了仅增加去噪步数的效果。
验证器与任务的契合度：不同验证器在不同任务中的表现不同，没有单一配置是普遍最优的，每个任务需要特定的搜索设置。
验证器的偏差：不同验证器具有固有的偏差，设计特定任务的验证器是必要的。

贡献：

提出了一个用于扩散模型推理时扩展的基本框架。
确定了搜索框架中的两个关键设计轴：验证器和算法。
进行了广泛的实证分析，揭示了推理时计算预算对扩展性能的影响。

结论：

通过搜索扩展计算可以显著提升扩散模型在各种任务和模型规模上的性能。
验证器和算法的选择应根据具体任务进行调整，以优化扩展性能。

这篇文章为扩散模型在推理时的扩展提供了新的思路和方法，展示了通过搜索更好的噪声来提升生成质量的可能性。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要：

生成模型在各个领域产生了重大影响，主要归功于它们在训练时通过增加数据、计算资源和模型规模进行扩展的能力，这种现象被称为扩展定律。最近的研究开始探索大型语言模型（LLMs）在推理时的扩展行为，揭示了通过增加推理时的计算量可以进一步提升性能。与LLMs不同，扩散模型天生具有通过调整去噪步数来灵活分配推理时计算的能力，尽管性能提升通常在几十步后趋于平缓。在本研究中，我们探索了扩散模型在超越增加去噪步数之外的推理时扩展行为，并研究了如何通过增加计算量进一步提升生成性能。具体来说，我们考虑了一个搜索问题，旨在为扩散采样过程找到更好的噪声。我们将设计空间沿着两个轴进行结构化：用于提供反馈的验证器和用于找到更好噪声候选的算法。通过在类别条件和文本条件图像生成基准上的广泛实验，我们的研究结果表明，增加推理时的计算量可以显著提升扩散模型生成样本的质量，并且由于图像的复杂性，框架中的组件可以根据不同的应用场景进行组合选择。

1. 引言

生成模型通过学习从底层数据分布中采样，已经在语言、视觉和生物学等领域产生了深远的影响。其成功的一个关键因素在于它们能够在训练时通过增加数据量、计算资源和模型规模进行扩展。这种训练时的扩展行为通常被称为扩展定律，它预测了随着模型规模增大、数据量增加和训练时间延长，性能将如何提升，从而指导开发出越来越强大的生成模型。

最近，在大型语言模型（LLMs）中，扩展研究已经扩展到推理时。通过分配更多的计算资源，通常通过复杂的搜索过程，这些研究表明LLMs可以生成更高质量和更符合上下文的响应。推理时扩展为在训练后获得额外资源时提升模型性能开辟了新的途径。

扩散模型是一类生成模型，通过训练从数据中去除噪声，主导了图像、音频和视频等连续数据领域。生成单个样本时，它们的生成过程通常从纯噪声开始，并需要多次前向传递训练好的模型以去噪并获得干净的数据。这些前向传递被称为去噪步数。由于去噪步数可以调整以在样本质量和计算成本之间进行权衡，扩散模型的生成过程自然提供了在推理时分配计算预算的灵活性。在生成模型的背景下，这种计算预算通常通过**函数评估次数（NFE）**来衡量，以确保与其他使用迭代采样过程但没有去噪能力的模型家族进行合理比较。

经验观察表明，仅通过增加去噪步数来投入计算资源，性能提升往往在达到一定NFE后趋于平缓，限制了在推理时扩展计算的好处。因此，之前关于扩散模型的研究主要集中在保持高性能的同时尽可能减少NFE以提高推理时的效率。而我们则对相反的前沿感兴趣。

与LLMs相比，扩散模型处理的是显式的随机性，这些随机性来自于作为初始样本或采样过程中注入的噪声。研究表明，这些噪声并不相同，即有些噪声比其他噪声更能生成更好的样本。这一观察为扩展NFE提供了另一个维度，即搜索更好的采样噪声。本工作不仅将NFE分配给去噪步数，还研究了通过搜索有效利用推理时计算的方法，从而提升扩散模型在推理时的性能和扩展性（图1）。我们主要考虑搜索框架中的两个设计轴：用于提供反馈的验证器和用于找到更好噪声候选的算法，遵循LLMs中使用的术语。

对于验证器，我们考虑了三种不同的设置，旨在模拟三种不同的使用场景：（1）我们有关于最终评估如何进行的有特权信息；（2）我们有用于指导生成的条件信息；（3）我们没有额外的可用信息。对于算法，我们考虑了（1）随机搜索，简单地从固定候选集中选择最佳样本；（2）零阶搜索，利用验证器反馈迭代优化噪声候选；（3）路径搜索，利用验证器反馈迭代优化扩散采样轨迹。

我们首先在相对简单的ImageNet类别条件生成设置中探讨这些设计选择，并展示其有效性，提供了我们框架的一个实例化。然后，我们将这些设计选择应用到更大规模的文本条件生成设置中，并评估我们提出的框架。由于图像的复杂性和文本条件中包含的丰富信息，需要对生成质量进行更全面的评估。因此，我们采用多个验证器来扩展推理时的计算搜索。这也使我们能够探究每个验证器所具备的“偏差”，以及它们与生成任务的契合程度。为了减轻对单一验证器的过拟合，我们还尝试了验证器的集成，并展示了其在不同基准上的良好泛化能力。

我们的贡献总结如下：

我们提出了一个用于扩散模型推理时扩展的基本框架。我们展示了通过搜索扩展NFE可以在生成任务和模型规模上带来显著改进，超越了仅增加去噪步数的效果。此外，我们进行了全面的实证分析，探讨了推理时计算预算如何影响扩展性能。
我们确定了所提出搜索框架中的两个关键设计轴：提供反馈的验证器和找到更好噪声候选的算法。我们研究了不同验证器-算法组合在各种任务中的表现，结果表明没有单一配置是普遍最优的；每个任务都需要一个独特的搜索设置以实现最佳扩展性能。
我们对验证器与不同生成任务之间的契合度进行了广泛分析。我们的结果揭示了不同验证器中嵌入的偏差，以及在每个不同的视觉生成任务中设计特定验证器的必要性。

2. 背景与动机

推理时的内在扩展。扩散模型的一个显著特性是它们天生具有为同一任务分配不同计算量的灵活性。由于它们被训练来近似底层向量场，扩散模型在单个生成过程中在不同噪声水平下多次评估。实际上，采样过程可以被理解为一个展开的、更大的模型，该模型在训练时仅部分稳定训练。这种训练和推理时容量之间的不匹配是扩散模型与其他生成模型（如GANs和VAEs）区分开的关键特征之一。投入更多计算资源到去噪步数通常会带来更好的生成效果，但由于近似和离散化误差的累积，收益会逐渐减少。因此，为了在推理时进一步扩展扩散模型，需要设计一个新的框架。

噪声的随机性。理论上，扩散模型的采样中存在显式的随机性：随机抽取的初始噪声，以及通过SDE和重启采样等过程注入的后续噪声。然而，由于模型评估本质上是确定性的，从这些噪声到最终样本存在一个固定的映射。研究表明，某些噪声比其他噪声更好，这表明通过投入更多NFE来寻找更优的采样噪声，可以推动推理时扩展的极限。

3. 如何在推理时扩展

基于第2节中的见解，我们现在提出一个用于扩散模型推理时扩展的框架。我们将挑战表述为对采样噪声的搜索问题；具体来说，我们如何知道哪些采样噪声是好的，以及如何搜索这些噪声？

在高层次上，我们提出了两个设计轴：

为了给出我们框架的一个具体实例，我们展示了类别条件ImageNet生成任务的设计过程。我们使用在ImageNet上预训练的SIT-XL模型，分辨率为256×256，并使用二阶Heun采样器进行采样，即除了初始噪声外没有其他随机性来源。我们使用去噪步数和搜索成本的总NFE来衡量推理计算预算。去噪步数固定为250 NFE，我们主要研究搜索NFE的扩展行为。除非另有说明，我们使用无分类器引导（cfg）权重为1.0，专注于没有引导的简单条件生成任务。

我们从最简单的搜索算法开始，随机采样高斯噪声，使用ODE生成样本，并选择那些对应最佳验证器评分的样本（图2）。我们将这种算法称为随机搜索，它本质上是一种Best-of-N策略，应用于所有噪声候选。在这里，搜索中扩展NFE的主要轴仅仅是选择噪声候选的数量。对于验证器，我们从“最佳”验证器开始，即Oracle验证器，我们假设它拥有关于最终评估的完整特权信息。对于ImageNet，由于FID和IS通常用作评估指标，我们直接将它们作为Oracle验证器。

对于IS，我们选择由预训练的InceptionV3模型输出的条件类别的最高分类概率的样本。对于FID，我们使用预计算的ImageNet Inception特征统计量（均值和协方差）作为参考，并贪婪地选择与真实统计量差异最小的样本。更多细节见附录A。

如图3所示，随机搜索中的简单策略在所有引导权重下都非常有效。随着搜索中投入的NFE增加，FID和IS在其对应的Oracle验证器下都得到了显著提升。然而，重要的是要指出，在大多数情况下，直接使用Oracle验证器是不切实际的，因为最终评估过程的具体细节通常不可用。因此，这种设置和结果仅仅是概念验证，证明了如果验证器选择得当，通过投入计算资源进行搜索可以在推理时显著扩展。

3.1 搜索验证器

在更现实的设置中，验证器可能可以访问用于生成的条件信息以及一些未明确与最终评估过程对齐的预训练模型。在这种情况下，验证器将根据样本的质量及其与指定条件输入的契合度来评估候选样本。我们将这种验证器家族称为监督验证器。

尽管使用Oracle验证器进行搜索扩展NFE展示了令人印象深刻的性能（如图3所示），但关键问题在于其有效性是否可以推广到具有更易访问的预训练模型的监督验证器。为了研究这一点，我们选择了两个具有良好学习表示的模型：CLIP和DINO。由于我们在ImageNet上只有类别标签作为条件信息，我们利用这两个模型的分类视角。对于CLIP，我们遵循Radford等人的方法，使用通过提示工程生成的嵌入权重作为零样本分类器。对于DINO，我们直接使用预训练的线性分类头。在搜索过程中，我们通过分类器运行样本，并选择与生成中使用的类别标签对应的最高logits的样本。我们在附录A中包含了更多设置。

如图4所示，这种策略也有效地提高了模型在IS上的性能，相比于仅通过增加去噪步数扩展NFE（图1）。然而，我们注意到，由于这些分类器是逐点操作的，它们仅部分与FID评分的目标对齐（见附录B）。具体来说，它们生成的logits仅关注单个样本的质量，而不考虑总体多样性，这导致样本方差显著减少，并最终表现为随着计算量增加的模式崩溃。随机搜索算法也因其无约束的搜索空间而加速了搜索向验证器偏差的收敛。这种现象类似于强化学习中的奖励黑客，因此我们称之为验证器黑客。

尽管条件信息在现实世界的生成任务中是必不可少的，但我们发现验证器并不一定需要条件信息来有效指导搜索。如图5所示，我们发现DINO/CLIP分类器输出的logits与模型在低噪声水平（σ=0.4）下的x预测与最终生成的干净样本（σ=0）之间的特征空间余弦相似度之间存在强相关性。因此，我们继续使用这种相似度评分作为分类logits的替代，并将这种验证器家族称为自监督验证器，因为它们不需要额外的条件信息。我们再次在图5中观察到有效的扩展行为。这一结果对于条件信息不可用或难以获得的使用场景（如医学图像生成任务）是令人鼓舞的。由于这些限制在现实世界中并不常见，我们将自监督验证器的进一步研究留给未来的工作。

3.2 搜索算法

我们之前的探索主要考虑了一个简单的随机搜索设置，即一次性从随机选择的固定候选集中选择最佳样本。我们在第3.1节中的发现表明，这种方法可能导致验证器黑客：由于随机搜索在整个高斯空间中进行操作，它可以迅速过拟合到验证器的“偏差”，从而导致我们预期目标的失败。这一认识促使我们研究更细致的搜索算法，这些算法利用验证器的反馈逐步优化候选样本，从而减轻过拟合风险。具体来说，我们考虑了一种零阶搜索方法：

我们注意到，由于许多验证器是可微的，技术上可以使用一阶搜索，并且在实际中已经看到了应用。然而，它需要通过整个采样过程进行反向传播，这通常在时间和空间复杂度上都是非常昂贵的，尤其是在扩展大型模型时。在实践中，我们发现尽管一阶搜索成本更高且扩展性较差，但在ImageNet上并没有显示出比零阶搜索显著的优势。我们在附录C中包含了比较。

扩散采样过程的迭代性质为设计局部搜索算法提供了其他可能性，并且可以沿着注入噪声的采样轨迹进行搜索。我们提出了路径搜索来探索其中一种可能性。具体来说：

我们在图6中展示了这些算法的性能。由于这两种算法的局部性，它们都在一定程度上缓解了FID的多样性问题，同时保持了扩展的Inception Score。对于零阶搜索，我们注意到增加N的有效性是边际的，N=4似乎已经是对局部最优的良好估计。对于路径搜索，我们看到不同的N值导致不同的扩展行为，小N在小的生成预算下计算效率高，而大N在扩展计算时具有优势。

4. 文本到图像生成中的推理时扩展

在第3节中，我们展示了搜索框架的实例化，接下来我们将在更大规模的文本条件生成任务中检验其推理时扩展能力，并研究验证器与特定图像生成任务之间的契合度。

数据集。为了更全面地评估我们的框架，我们使用了两个数据集：（1）DrawBench，由Saharia等人引入，包含200个提示，涵盖11个不同类别。它旨在评估文本到图像模型处理复杂提示并生成逼真和高质量图像的能力。在评估过程中，我们为每个提示生成一张图像。（2）T2I-CompBench，是一个用于评估属性绑定、对象关系和复杂组合的基准。我们为每个提示生成两张图像，并使用验证集中的1800个提示进行评估。

模型。我们使用新发布的FLUX.1-dev模型作为我们的骨干模型，该模型目前处于文本到图像生成的前沿，代表了当代文本条件扩散模型的能力。有关详细的采样设置，请参见附录A。

验证器。由于文本条件图像生成的固有复杂性，需要对生成的图像进行更全面和细致的评估。因此，我们扩展了监督验证器的选择，以评估生成图像的不同方面：美学评分预测器、CLIPScore和ImageReward。这些验证器依赖于大量的人工标注数据，从不同角度捕捉人类偏好：美学评分预测器经过训练，可以预测合成图像的视觉质量的人类评分；CLIPScore通过4亿人类标注的（图像，文本）对数据对齐视觉和文本特征；最后，ImageReward通过精心策划的标注管道学习捕捉更一般的偏好，包括对文本-图像对齐、美学质量和无害性的评分和排序。因此，ImageReward具有更大的容量，可以在一定程度上捕捉美学评分和CLIPScore的评估方面。我们在第4.1节中包含了更多讨论和结果。

此外，我们将这三个验证器结合起来创建了第四个验证器，称为验证器集成，以进一步扩展验证器在评估方面的容量。由于这些验证器生成的指标在不同的尺度上运行，我们记录样本之间的相对排名，配置验证器集成以评估每个样本的三个指标的无权重平均排名，并选择排名最高的样本。

我们发现自监督验证器在文本到图像设置中效果较差。我们将其归因于两个主要因素：（1）自监督验证器关注图像的视觉质量，但忽略了关键的文本信息；（2）大规模预训练和广泛的微调可能使文本到图像模型获得与在ImageNet上训练的小型类别条件模型非常不同的采样动态。我们在附录D中包含了性能和更详细的分析。

指标。在DrawBench上，我们使用所有未在搜索过程中使用的验证器作为主要指标，以提供更全面的评估。考虑到验证器集成的使用，我们还引入了一个LLM作为中性评估器，用于评估样本质量。

LLMs和多模态大型语言模型（MLLM）的广泛预训练和强大的模型容量赋予它们卓越的图像-文本理解和泛化能力，使它们成为评估合成图像质量的有效评估器。事实上，许多先前的工作要么采用VQA方法与LLMs作为评估模型，要么利用MLLMs作为注释器以获得关于生成图像各个方面的反馈。受这些方法的启发，我们提示Gemini-1.5 flash模型（通过Gemini-1.5-Flash-002 API）从五个不同角度评估合成图像：准确性、原创性、视觉质量、内部一致性和情感共鸣。每个角度按0到100的评分，最终指标为平均总分。我们将这种评估器称为LLM评分器，并在附录A中包含了提示和评估设置。

5. 推理计算投资的轴

由于扩散模型的迭代采样性质，我们可以通过搜索在多个维度上扩展NFE。我们在下面展示它们并研究它们对性能的影响。

搜索迭代次数。直观地说，增加搜索迭代次数可以使选定的噪声接近验证器的最优集，从而显著提高性能。我们在之前的所有实验中观察到了这种行为。

每次搜索迭代的计算量。在每次搜索迭代中，我们可以调整模型执行的去噪步数。为简单起见，我们将其表示为NFEs/iter。尽管仅增加去噪步数时模型性能很快趋于平缓（图1），但我们观察到在搜索过程中，调整NFEs/iter可以揭示不同的计算最优区域，如图10所示。较小的NFEs/iter在搜索期间能够高效收敛，尽管最终性能较低。相反，较大的NFEs/iter导致收敛速度较慢，但性能有所提高。此外，还展示了收益递减效应：当NFEs/iter ≥ 50时，进一步增加NFEs/iter尽管投入了额外的计算资源，但收益甚微。受此观察启发，我们将每次搜索迭代的NFEs/iter设置为50，以便在ImageNet上进行高效的计算分配。在文本到图像设置中，由于FLUX-1.dev能够以相对较少的去噪步数生成高质量样本，我们将NFEs/iter固定为30，与最终生成对齐。

最终生成的计算量。尽管可以自由调整最终生成的去噪步数，但我们始终使用最佳设置以获得最佳最终样本质量。在ImageNet中，我们将去噪预算固定为250 NFE，而在文本到图像设置中，使用30步采样器，因为进一步扩展将很快达到性能平台。

5.1 投资计算的有效性

我们探讨了为较小的扩散模型扩展推理时计算的有效性，并强调了其相对于没有搜索的较大模型性能的效率。对于ImageNet任务，我们使用SIT-B和SIT-L，对于文本到图像任务，我们使用较小的基于Transformer的模型PixArt-Z以及FLUX-1.dev。我们报告了这些模型在其最佳设置下评估的各种指标：在ImageNet上使用DINO logits进行FID的零阶搜索，在ImageNet上使用DINO logits进行IS的随机搜索，以及在DrawBench上使用验证器集成进行文本到图像评估的随机搜索。由于不同大小的模型每次前向传递的成本显著不同，我们使用估计的GFLOPs来衡量它们的计算成本，而不是NFE。

从图11中，我们观察到在ImageNet上为小型模型扩展推理时计算可以非常有效。在固定的推理计算预算下，对小型模型进行搜索可以超越没有搜索的较大模型。例如，SIT-L在推理计算有限的区域中表现出优于SIT-XL的优势。然而，将SIT-B与其他两个模型进行比较表明，这种有效性取决于小型模型的相对较强的基线性能。当小型模型的基线性能显著滞后时，扩展的收益有限，导致次优结果。

这些观察结果扩展到文本条件设置，如表4所示。仅使用十分之一的计算量，PixArt-Σ就超越了没有搜索的FLUX-1.dev，并且使用大约两倍的计算量，PixArt-Σ显著超越了没有搜索的FLUX-1.dev。这些结果具有重要的实际意义：训练中投入的大量计算资源可以通过生成时的一小部分计算来抵消，从而更高效地获得更高质量的样本。

6. 相关工作

扩展测试时计算。扩展测试时计算已被证明对预训练的LLMs非常有效。这为LLMs的扩展行为提供了一个完全不同的轴，并激发了许多研究。最近关于LLMs测试时扩展的研究主要集中在三个方面：（1）更好的搜索/规划算法；（2）更好的验证器；（3）测试时计算的扩展定律。这些工作强调了测试时计算的重要性以及在特定预算下有效分配这些计算的方法，引导社区构建具有推理和自我纠正能力的代理。受这些工作的启发，我们研究了扩散模型在推理时的扩展行为，引入了一个在采样过程中注入噪声的通用搜索框架，并展示了其在不同基准上的有效性，旨在激励扩散模型社区对推理时扩展的更多探索。

微调扩散模型。为了使扩散模型与人类偏好对齐，已经提出了多种微调方法。Fan和Lee将去噪过程解释为多步决策任务，并使用策略梯度算法微调扩散采样器。Black等人将微调任务表述为RL问题，并使用策略梯度最大化反馈训练的奖励。Clark等人进一步简化了这一任务，直接通过整个采样过程反向传播奖励函数梯度。Wallace等人重新表述了直接偏好优化，以推导出一个可微的偏好目标，该目标考虑了扩散模型的似然性，Yang等人则放弃了显式的奖励模型，直接在人类偏好数据上微调模型。最后，Domingo-Enrich等人将微调问题表述为随机最优控制，以更好地对齐基础和奖励模型的倾斜分布。这些研究代表了在强制扩散模型对齐人类偏好、伦理考虑和受控行为方面的重大进展。

扩散模型中的样本选择和优化。扩散采样质量的巨大差异自然引出了如何在测试时找到好样本的问题。为了解决这个问题，一些工作专注于使用随机搜索算法通过一些预定义的指标进行样本选择。Karthik等人使用预训练的VQA和人类偏好模型来指导选择，Liu等人进一步更新了选择过程中的提议分布以更好地与真实分布对齐。类似地，Na等人在中间扩散去噪步骤中对更新的提议分布进行拒绝采样。另一方面，Tang等人和Samuel等人使用一小部分真实图像作为参考，并使用参考图像与生成图像之间的相似性作为选择的指导。然而，这些工作主要专注于使用非常特定的验证器和算法解决挑战，而很大程度上忽略了对不同验证器固有偏差的全面调查、多个验证器和搜索方法在不同任务上的相互作用，以及推理时计算预算与扩展性能之间的关系。其他一些工作利用预训练奖励模型的梯度直接优化更好的样本。我们再次注意到，这些工作专注于相对小规模的任务（如图像修复、编辑、超分辨率），并且这些方法的成本由于需要通过扩散采样过程进行反向传播而非常高昂。

7. 结论

在本研究中，我们提出了一个用于扩散模型推理时扩展的框架，展示了通过搜索扩展计算可以显著提升各种模型规模和生成任务的性能，并且不同的推理时计算预算可以导致不同的扩展行为。通过确定验证器和算法作为我们搜索框架中的两个关键设计轴，我们展示了最优配置因任务而异，没有普遍适用的解决方案。此外，我们对不同验证器与生成任务之间的契合度的研究揭示了它们固有的偏差，强调了需要更精心设计的验证器以与特定视觉生成任务对齐。

附录A 实验设置

我们在此展示我们的实验设置。

训练设置。我们工作中使用的大多数模型都是预训练的：在ImageNet中，我们使用预训练的SiT-XL模型；在文本到图像设置中，我们使用从diffusers库中公开的FLUX.1-dev和PixArt-ΣΣ的权重。在第5节中，报告的SiT-B和SiT-L是自训练的，遵循与[50]相同的架构和训练配置。图11中包含的最终数字来自训练了80万次迭代的模型。

采样设置。我们总结了工作中的采样设置。

搜索设置

验证器设置
ImageNet。我们总共考虑了四个验证器用于在ImageNet上进行搜索。我们列出以下设置：

文本到图像。我们总共考虑了四个验证器用于在文本到图像设置中进行搜索：

美学评分：我们使用在LAION-5B子集上预训练的美学评分预测器。它由一个没有非线性的单一MLP组成，并接受预训练的CLIP-L模型的图像特征作为输入。输出在0-10的范围内，用于评估图像的美学质量。
CLIPScore：我们使用预训练的CLIP-L模型，并测量视觉和文本特征之间的余弦相似度。根据[23]，每个文本提示还前缀为“A photo depicts”，最终评分按2.5 * max(cos_sim, 0)重新缩放。
ImageReward：我们使用从[92]中预训练的模型来近似人类偏好，并使用相同的评估设置。
验证器集成：我们分别通过上述三个验证器运行候选样本，对每个验证器输出的评分进行排名，并使用无权重平均排名作为验证器集成的最终评分。

评估设置。
ImageNet。遵循标准实践，我们使用50000个合成样本计算FID和Inception Score。我们使用随机生成的条件和全局批量大小为256进行所有评估。我们提取了ImageNet统计量，并按照Karras等人的方法计算FID和IS。

DrawBench。我们为每个提示搜索一个噪声以生成样本。对于除LLM评分器之外的评估器，我们简单地将合成样本输入预训练的评估器模型，并报告200个提示的平均评分。

对于LLM评分器，我们提示Gemini-1.5 flash模型从五个不同角度评估合成图像：准确性、原创性、视觉质量、内部一致性和情感共鸣。每个角度按0到100的评分，最终指标为平均总分。我们在表7中包含了细分评分，并在图16中展示了详细提示。我们观察到搜索可以有益于LLM评分器的每个评分类别。

T2I-CompBench。对于每个提示，我们搜索两个噪声并生成两个样本。在评估过程中，样本被分为六个类别：颜色、形状、纹理、空间、数量和复杂。根据Huang等人，我们使用BLIP-VQA模型评估颜色、形状和纹理，使用UniDet模型评估空间和数量，并使用BLIP VQA、UniDet和CLIP的加权平均评分评估复杂类别。

附录B 验证器黑客导致评估指标的退化

许多先前的工作注意到在使用预训练奖励模型微调扩散模型时的过度优化问题，即过度优化奖励模型会导致其他评估指标的退化。我们在过度搜索验证器并迅速过拟合其偏差时也有类似的观察。

当在ImageNet上针对DINO或CLIP分类logits进行搜索时，我们注意到尽管Inception Score不断提高，但FID评分在超过一定搜索迭代次数后突然增加，如图13所示。为了研究这个问题，我们计算了Precision和Recall，并在图13中绘制了它们。我们看到，虽然Precision随着搜索迭代次数的增加而增加，表明样本质量持续提高，但Recall随着搜索迭代次数的增加而减少，意味着样本集的多样性丧失。

我们将其归因于DINO和CLIP分类验证器。当针对这些验证器进行搜索时，我们仅在每个噪声的基础上操作——选择对应样本具有最高分类评分的噪声。因此，当搜索迭代次数增加时，我们最终选定的噪声集将更接近分类验证器的高分区域。这有两个后果：1）选定的噪声过拟合到验证器并退化其他指标；2）选定的噪声聚集在高分区域，忽略了最终集的总体方差。我们认为后者对评估的FID影响更大，因为FID已知非常重视生成样本的多样性。我们在第3.2节中提出的零阶搜索和路径搜索在一定程度上缓解了这个问题，通过在初始噪声n的邻域内或在采样过程的中间步骤中进行搜索。然而，如果我们在图12中扩大零阶搜索的邻域范围，它也会遭受多样性问题。

更根本的解决方案是使用在总体基础上操作并考虑选定噪声集全局结构的验证器。从图3中的简单示例中，我们看到这样的验证器可能是有效的。我们将进一步探索留给未来的工作。

后果（1）在图8中得到了更好的展示。我们看到，过度搜索美学评分会导致CLIPScore的退化，反之亦然。

附录C 零阶和一阶搜索

由于许多验证器是可微的，我们还研究了在ImageNet上由验证器梯度引导的一阶搜索。具体来说：

在图14中，我们包含了零阶搜索和一阶搜索的比较。我们将学习率固定为η=0.01，以便一阶搜索与λ=0.995的零阶搜索的步长大致匹配。我们最佳估计梯度检查点的开销为模型前向调用的两倍，使得每次迭代比没有反向传播时成本高3倍。

尽管推理计算大致对齐，尽管一阶搜索显示出比零阶搜索更快的收敛速度，但我们看到它在持续扩展计算时并没有显示出显著的边际，尽管其内存成本更高且在大模型上的扩展性较差。然而，由于其梯度引导的性质，一阶搜索在具有更细粒度目标的任务中可能具有优势，例如图像编辑、修复和解决逆问题。

附录D 自监督验证器在文本到图像设置中的表现

我们在图15中展示了自监督验证器在文本到图像设置中的表现。我们观察到，尽管自监督验证器在ImageNet上表现出色，但在文本到图像设置中效果较差。我们将其归因于两个主要因素：

1）自监督验证器关注图像的视觉质量，但忽略了关键的文本信息。这与Clark等人的观察一致，他们注意到使用美学或CLIP奖励进行广泛微调会导致模型分布崩溃到单一的高奖励模式。另一方面，自监督验证器本质上选择特征空间中轨迹曲率最小的样本，这意味着更稳定的采样过程，从而可能具有更高的样本质量。然而，由于文本到图像设置中评估的微妙和整体性质，这种“更高的样本质量”可能与每个指标关注的具体视角不一致。例如，在相同的文本提示下，具有高视觉质量但内容不匹配的图像可能不如视觉质量略有下降但视觉内容更丰富且更匹配的图像受欢迎。

2）文本到图像模型中丰富的条件和在大规模数据集上的广泛微调可能导致与在ImageNet上训练的小型类别条件模型不同的采样动态。这可能导致自监督验证器本身的失败，因为特征空间中测量的低轨迹曲率可能不再指示样本质量。

这也呼吁设计特定任务的验证器。从类别条件和文本条件任务中的自监督验证器中，我们看到验证器的有效性可能高度依赖于任务。因此，为了进行与期望目标更契合的搜索，我们认为有必要为每个任务设计特定的验证器；在搜索过程中，避免黑客攻击每个验证器的特定偏差也非常重要。我们在工作中提出了一些简单的方法，并将此问题的进一步探索留给未来的工作。