图芬奇是一家专注于提供海量图库高级搜索和基于AI对图片进行二次创作的公司,满足企业和个人用户的图像素材需求。
Classifier-free guidance (CFG) 是提升扩散模型生成质量和输入条件与最终输出对齐的重要方法。尽管通常需要较高的引导尺度来增强这些方面的表现,但这也会导致过饱和和不现实的伪影问题。本文重新探讨了 CFG 的更新规则,并引入了一些改进以解决这一问题。我们首先将 CFG 中的更新项分解为与条件模型预测平行和正交的分量,观察到平行分量主要导致过饱和,而正交分量提升了图像质量。因此,我们建议对平行分量进行降权处理,以实现高质量的生成图像而不会产生过饱和现象。
此外,我们将 CFG 与梯度上升法联系起来,并基于这一见解提出了一种新的重缩放和动量方法用于 CFG 更新规则。我们的方法被称为自适应投影引导(APG),在保留 CFG 提升质量优势的同时,允许在使用较高引导尺度时避免过饱和。APG 易于实现,并且几乎不会给采样过程带来额外的计算开销。通过大量实验,我们证明了 APG 与各种条件扩散模型和采样器兼容,能够在保持与 CFG 相当的精度的同时,提升 FID、召回率和饱和度分数,使得我们的方法成为比标准的无分类器引导更优的即插即用替代方案。
采用APG之后生成图片的效果对比,主要体现在两个方面的提升:
- 避免高CFG生成图片的色彩过度饱和和伪影问题
- 提升了整体图像构图的多样性以及结果的多样性