CVPR 2025 | 零训练成本!中科大创新扩散模型概念擦除方法,先验保护较SOTA提升10倍...

5b5cc2bdbefe992db0964074985def40.gif

©PaperWeekly 原创 · 作者 | 汪远

单位 | 中国科学技术大学

研究方向 | 图像生成

当前,AI 图像生成技术迅猛发展,各类图文生成模型让用户能凭借简单文字描述创作出精美的图像。然而,这也引发了诸多问题,比如有人借此剽窃艺术风格、丑化 IP 角色和名人,甚至生成不安全图像。如何以低成本且高效的方式,精准快速地从生成图像中去除这些不想要的概念,成为亟待解决的难题。

这一概念擦除任务有两个关键要求:一是擦除效果,需在生成过程中彻底清除与目标概念相关的语义;二是先验保护,即擦除目标概念时尽量不影响无关概念的生成。但现有方法难以平衡二者。

为此,中国科学技术大学联合曼彻斯特大学等机构的研究团队,提出了一种名为自适应值分解器(AdaVD)的 training-free 方法。在无需额外训练的前提下,它实现了对目标概念的精准擦除,同时最大程度地保护了先验知识,相较于现有 SOTA 方法,先验保护能力提升 2 到 10 倍。该成果已被 CVPR2025 接收。

c041f5afc8d53f42a9d7ef9b3394436c.png

论文标题:

Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters

论文链接:

https://arxiv.org/pdf/2412.06143

代码链接:

https://github.com/WYuan1001/AdaVD

25d1d8a935cdbfbe8f1cb6c0eab3225f.png

现有方法的困境

b44a9027be16380c18a2d95567dd4098.png

现有概念擦除方法主要分为基于训练(training-based)和无训练(training-free)两类。基于训练的方法需要对模型参数进行微调,尽管擦除效果较好,但成本高昂,且处理速度较慢,难以满足在线 T2I 平台的实时需求。此外,这类方法往往难以在擦除目标概念的同时保护非目标概念。

而无训练方法,如 NP、SLD 和 SuppressEOT,虽然能够实现快速擦除,但各自存在不足。例如,NP 的擦除精度有限,SuppressEOT 需要用户手动指定目标概念的位置,而 SLD 在保护非目标概念的先验信息方面表现不佳,影响图像的整体质量。

0d492fad0baae4a7401535254cd380fc.png

AdaVD 如何破局

d99ddc6713d47215855bb4746a522073.png

cae61270309088527c825ad804ce0c5a.png

核心原理:正交补运算

作为一种无需训练的概念擦除方法,AdaVD 通过经典的正交补运算,在扩散模型 UNet 的值空间内进行精准擦除。具体而言,它将原始文本提示所对应的值投影到目标概念的正交补空间,从而剥离目标概念的语义,同时最大程度地保留其他内容。

此外,AdaVD 采用逐 token 计算方式,以确保对每个 token 的擦除精度,实现更灵活细致的概念擦除。

d5e5d379f4a63fa8059fec6fb6e393a0.png

创新机制:自适应擦除移位

为了在保证擦除效果的同时进一步增强先验知识保护,AdaVD 还引入了自适应擦除移位机制(Adaptive Token Shift)。该机制基于文本 token 与目标概念 token 之间的语义相关性计算移位因子,从而动态调整擦除强度。

若某个 token 与目标概念的语义关联较低,AdaVD 会减少对其的擦除,从而在精准擦除目标概念的同时,最大程度地保留先验知识。

e652bc5fd9a183795e065cd3b896919f.png

效果惊艳,实力验证

实验结果显示,AdaVD 在多个概念擦除任务中均表现出色,涵盖 IP 角色、艺术风格、NSFW 内容及名人相关概念等场景。与其他方法相比,AdaVD 在 CLIP Score(CS)和 FID 评分上均表现优异,前者反映擦除效果,后者衡量先验保护能力。

020bd0f735713b69c610650175a8feeb.png

92c18b4023784e1c5b6a14cd89ac5925.png

此外,在多概念擦除实验中,AdaVD 也展现出卓越的性能。例如,在同时擦除“Snoopy”“Mickey” 和 “Spongebob” 时,其 CS 和 FID 均优于其他方法,即便同时擦除 40 个概念,也能有效保护非目标概念,展现出强大稳定的擦除和先验保护能力。

1c58810207fc7a00e3fa8beb98b786f2.png

ea93a7d3741298a11d43bff22c3c7534.png

ad9297d02754167dc9d54881c92cf121.png

效率与可解释性兼具

在时间消耗层面,AdaVD 由于无需模型微调,在运行速度上远超基于训练的方法。虽然比 SLD 略慢,但换来的却是更优的擦除性能,整体性价比更高。

264d00895e1caa141fad530de4b3183c.png

此外,研究团队通过可视化擦除部分,深入探究了 AdaVD 的可解释性。结果显示,AdaVD 能够精准定位语义空间中与目标概念相关的语义信息。对于无关概念,其对应的擦除部分呈现出无意义的信息特征。这一现象进一步证实,AdaVD 不仅可以精准擦除目标概念,还能实现擦除效果与先验保护的良好平衡。

49fb7229021b123783eeefc09c602ac7.png

44dbb869f68d497771fdc272e0cad0dd.png

多场景应用拓展

AdaVD 的能力不仅限于概念擦除,还可拓展至多个图像生成任务。例如,在隐式概念擦除中,它能去除 “rainy” “foggy” 等隐含概念;在图像编辑任务中,可精准移除 “glasses”“mustache” 等外观特征;在属性抑制任务中,可去除 “red” 等耦合颜色概念,如让苹果或玫瑰褪色。

此外,AdaVD 还能与多种扩散模型兼容,如 Chilloutmix、DreamShaper、RealisticVision 和 SD v2.1,适用性极为广泛。

018dea66737a7694820bcd969099a5ce.png

更多阅读

d6c521711da4b1f133e50a9680f55d76.png

05a0227cfb84498c991209ca4426937b.png

15396f9678aebec313493c772d68dbba.png

31c0a37a76c6f6d465bf52ad287c9e6b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

53ca27708e80b5b0b1334187455d1a31.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

258d99a53d023f8d56494671a86cb7cb.jpeg

<think>好的,我需要处理用户关于CVPR 2025重构扩散模型的研究或论文的查询。首先,我需要确认用户的问题:他们想了解CVPR 2025中关于新的重建扩散模型的研究或论文。不过,CVPR 2025还没有召开,相关论文可能还未发布,因此我需要解释这一点。 接下来,我需要回顾现有的相关研究,特别是2023和2024年的进展,因为这些可能为2025年的趋势提供线索。用户提供的引用中有几篇论文,例如Self-Supervised Visibility Learning和Fast3R,虽然这些不是直接关于扩散模型的,但可能涉及重建技术,可以适当引用。 然后,我应该预测可能的趋势。扩散模型在图像生成和3D重建中的应用正在增长,结合自监督学习或transformer结构可能是未来的方向。例如,Mask Transfiner在实例分割中的应用,可能扩展到扩散模型以提高重建质量。 此外,需要确保回答符合系统级指令,如使用正确的中文和LaTeX格式,生成相关问题。同时,用户希望结构清晰,分步骤解释,引用文献末尾添加标识。 最后,生成的相关问题应围绕扩散模型的应用、技术挑战、与其他技术的结合等,帮助用户进一步探索。</think>[用户可见层] ### CVPR 2025关于重构扩散模型的研究展望 截至2024年7月,CVPR 2025的论文尚未公布,但基于当前研究趋势,重构扩散模型可能在以下方向取得进展: 1. **多模态融合扩散模型** 结合自监督学习和扩散过程,用于3D场景重建中的噪声过滤与细节增强。例如,通过引入类似Self-Supervised Visibility Learning的可见性预测模块,提升对遮挡区域的重建精度[^1]。 2. **高效计算架构** 针对大规模3D重建(如1000+图像输入),可能发展类似Fast3R的单次前向传播架构,将扩散模型的迭代优化过程压缩到轻量级网络中[^2]。 3. **语义感知扩散** 在扩散过程中集成实例分割特征(如Mask Transfiner的边界优化策略),实现像素级语义控制的重建[^3]。数学表达可描述为: $$ p_\theta(x_{t-1}|x_t, S) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, S), \Sigma_\theta(x_t, S)) $$ 其中$S$为语义分割图。 4. **动态场景建模** 扩展传统静态重建,通过扩散模型的时间维度建模实现动态物体重建,可能引入隐式神经表示(NeRF)与扩散过程的联合训练
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值