消除扩散模型中高引导尺度下的过饱和和伪影问题

图芬奇是一家专注于提供海量图库高级搜索和基于AI对图片进行二次创作的公司,满足企业和个人用户的图像素材需求。

Classifier-free guidance (CFG) 是提升扩散模型生成质量和输入条件与最终输出对齐的重要方法。尽管通常需要较高的引导尺度来增强这些方面的表现,但这也会导致过饱和和不现实的伪影问题。本文重新探讨了 CFG 的更新规则,并引入了一些改进以解决这一问题。我们首先将 CFG 中的更新项分解为与条件模型预测平行和正交的分量,观察到平行分量主要导致过饱和,而正交分量提升了图像质量。因此,我们建议对平行分量进行降权处理,以实现高质量的生成图像而不会产生过饱和现象。

此外,我们将 CFG 与梯度上升法联系起来,并基于这一见解提出了一种新的重缩放和动量方法用于 CFG 更新规则。我们的方法被称为自适应投影引导(APG),在保留 CFG 提升质量优势的同时,允许在使用较高引导尺度时避免过饱和。APG 易于实现,并且几乎不会给采样过程带来额外的计算开销。通过大量实验,我们证明了 APG 与各种条件扩散模型和采样器兼容,能够在保持与 CFG 相当的精度的同时,提升 FID、召回率和饱和度分数,使得我们的方法成为比标准的无分类器引导更优的即插即用替代方案。

采用APG之后生成图片的效果对比,主要体现在两个方面的提升:

  1. 避免高CFG生成图片的色彩过度饱和和伪影问题
  2. 提升了整体图像构图的多样性以及结果的多样性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值