揭秘神秘的种子：Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析

AI生成未来

已于 2024-06-16 20:54:53 修改

阅读量975

点赞数 17

分类专栏： AIGC 文章标签： chatgpt LLM AIGC 文本生成3D 计算机视觉

于 2024-06-16 20:49:22 首次发布

本文链接：https://blog.csdn.net/AIGCer/article/details/139726077

版权

文章链接：https://arxiv.org/pdf/2405.14828

最近对文本到图像（T2I）扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子，可以为固定的文本提示生成各种图像。在技术上，种子控制着初始噪声，并且在多步扩散推理中，在反向扩散过程的中间时间步骤中用于重新参数化的噪声。然而，随机种子对生成的图像的具体影响仍然相对未知。

在这项工作中，进行了大规模的科学研究，探讨了扩散推理过程中随机种子的影响。值得注意的是，研究者发现最佳的“黄金”种子的FID达到了令人印象深刻的21.60，而最差的“劣质”种子的FID为31.97。此外，分类器可以在几个时代内以超过99.9%的准确度预测用于生成图像的种子编号，表明基于生成图像，种子是高度可区分的。受到这些发现的鼓舞，研究者们研究了种子对可解释的视觉维度的影响，发现某些种子会一致地生成灰度图像、突出的天空区域或图像边界。种子还会影响图像的构成，包括对象的位置、大小和深度。此外，通过利用这些“黄金”种子，展示了改进的图像生成，如高保真推理和多样化的采样。本文的调查还涉及修补任务，发现一些种子倾向于插入不需要的文本伪影。总的来说，广泛分析凸显了选择良好种子的重要性，并为图像生成提供了实用的实用性。

好坏种子的对比

介绍

文本到图像（T2I）扩散模型已经显著推动了图像合成，使得可以创建逼真的、高分辨率的图像。然而，它们的训练需要大量的计算资源，限制了这种研究只能在一些设备齐全的实验室进行。尽管存在这些限制，许多研究通过特征重新加权、基于梯度的引导或与多模式LLMs的集成等方法增强了推理过程中的图像生成。

这项工作提出了一种推理技术，通过探索逆扩散过程中的“秘密种子”来增强图像生成。受到Torch.manual_seed(3407)等研究的启发，该研究揭示了精心选择的神经网络初始化种子在图像分类中可以优于选择不当的种子，调查了在T2I扩散推理中是否“黄金”或“劣质”种子同样会影响图像质量。令人惊讶的是，使用预训练的流行T2I模型 Stable Diffusion (SD) 2.0，在1,024个种子上进行实验，发现最佳的“黄金”种子的FID达到了21.60，而最差的“劣质”种子只达到了31.97 ——这在社区中是一个显著的差异。这一发现引发了我们对几个科学问题的好奇：种子在T2I扩散推理中控制什么？为什么随机种子如此重要？种子可以通过生成的图像进行区分吗？它们是否控制可解释的图像维度，如果是，如何利用这一点来增强图像生成？

为了回答这些研究问题，首先研究了随机种子如何控制初始的噪声潜变量以及逆潜变量扩散过程中每个中间时间步的高斯噪声。研究者们还使用两个T2I扩散模型（传统的多步 SD 2.0 和蒸馏的单步 SDXL Turbo）构建了一个数据集。这个数据集包括超过22,000个多样化的文本提示，并且对于每种模型和提示的组合，使用1,024个唯一的固定种子，结果大约有4600万张图像。

最初的目标是确定每个随机种子是否在生成的图像中编码了可识别的独特特征。为了测试这一点，研究者们训练了一个1,024路分类器，从不同的提示中生成的图像中预测扩散推理时使用的种子编号。值得注意的是，这个分类器在只经过六个时代的情况下就达到了超过99.9%的验证准确率，这与大约0.01%的随机猜测概率形成了鲜明对比，表明基于生成的图像种子是高度可区分的。

在确认了种子的可区分性后，本文的目标是了解是否存在任何可解释的感知维度，使得这种区分成为可能。下一步是设计一个流水线来提取风格和布局表示，对可见聚类应用降维技术，然后识别出不同种子之间的一致模式，而不考虑输入提示。例如，某些种子一致地生成“灰度”图像，其他种子在顶部生成具有突出的白色“天空”区域的图像，而某些种子则创建图像边框或在修补模式下插入“文本”。就图像布局而言，各种种子一致地影响主要对象的规模、位置和深度。有关这些发现的详细信息。

基于从种子分析中的这些发现，提出了几种下游应用来增强图像生成。首先，通过识别各种提示中的“黄金”种子，可以将采样限制为前K个种子，以进行高保真推理。与默认实现中的随机采样相比，这种方法表现出更好的定量性能，如FID和HPS v2的测量结果。其次，发现表明，某些种子捕获了不同的风格或布局组合。通过利用这一知识，可以基于风格或布局实施多样化的采样，为用户提供不同的结果。最后，在图像修补方面的研究表明，某些种子一致地生成“文本伪影”，而不是完成像素，这表明可以通过使用最小化这些伪影的种子来改善基于文本的修补模型的修补质量。请注意，对于所有这些应用，只需要针对每个模型执行一次种子分析，本文的方法可以轻松集成到推理过程中ÿ

最低0.47元/天解锁文章