橘猫减去「猫」会变成什么?清华联合阿里推出概念半透膜模型

eeb21c22d87f79d09f59dabb5946ca83.gif

©作者 | 机器之心编辑部

来源 | 机器之心

一只橘猫,减去「猫」,它会变成什么?

第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」,画出一只长得很像面包的猫猫,然后用概念半透膜 SPM 技术,将猫猫这个概念擦掉,结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个概念后的结果。

4ace8ee24bc201014efbcf9ec652e573.png

▲ 图1. 概念半透膜 SPM 针对不同的「猫」图擦除猫概念后的效果

下图 2 到图 6 展示了更多的示例。

0d5a8e667d2d46ee5aa2f36a260ef739.png

▲ 图2. 失去梦想变成一只面包表情包

e8ca6c1fa3baac981797c5201cd77afa.png

▲ 图3. 西装光剑米老鼠图擦除米老鼠概念

59909725742e7060e31d4480f640bcc3.png

▲ 图4. 稻田里的史努比图擦除史努比概念

eece9110a1576c5505b35a1434ad8a6a.png

▲ 图5. 梵高的向日葵图擦除梵高概念

 1b3446e7f5b75260b42f1d1802ba0e0f.png

▲ 图6. 毕加索的抽象画擦除毕加索概念

这便是清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型),该模型能够在 Diffusion 架构的 AI 作图模型中,精准、可控地擦除各类具象或抽象概念,并对无关概念做到几乎完全保留。

相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。

1314f25cc17ec67621575d7e54e7ee33.png

项目链接:

https://lyumengyao.github.io/projects/spm

代码链接:

https://github.com/Con6924/SPM

论文链接:

https://arxiv.org/abs/2312.16145

阿里集团资深总监、人工智能治理与可持续发展研究中心主任、集团科技伦理治理委员会执行主席薛晖表示:该项成果在通义大模型系列的 AIGC 内生安全领域、可控生成等方面都具备落地潜力,能够有效避免有害概念的侵害,促进通义等 AI 技术产品可用、可靠、可信、可控地向善发展。

b6dfe58d7692eb6272adbca7ec1c68cc.png

动机和研究背景

前不久,OpenAI 的文生视频模型 Sora 带来了 AIGC 新时代,主流的视觉 AIGC 基于扩散模型(Diffusion Model,DM),但依然存在各类问题,比如可以被诱导生成涉黄、侵权等危险概念、无法精准地对某些概念进行作画和控制等。这里的 「概念」可以是具象的「苹果」,也可以是抽象的「梵高风」、「色情」、「暴力」。

外置安全系统拦截风险会造成较差的用户体验(一些无恶意的用户可能在创作时,因为模型偶然生成一些违规内容而被拦截),因此需要一种基于模型内生安全的概念擦除方法,保留用户意图,同时对模型违规元素进行柔性地精准擦除。

针对此,本文提出了概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型)。

42b151cdf49e78457ff9baff308ab9f9.png

技术框架

如下图 7 所示,给定一个目标概念,本文的主要目标是从预训练的 DM 中精确地擦除该概念,同时保留其他生成内容。

为了避免对特定 DM 参数的依赖和训练过程中出现的参数漂移,本文首先设计了一种轻量化的一维 Adapter,称为概念半透膜(concept Semi-Permeable Membrane,SPM)。这种极轻量的非侵入性结构可以插入任何预训练的 DM(如 SD v1.x)中,以学习特定概念的可迁移识别及其相应的擦除,同时保持原始模型的完整性。

然后,本文提出了一种新颖的 SPM 微调策略——Latent Anchoring(LA),以有效地在潜空间中利用连续的概念进行精确的擦除和有效的概念保留。一旦 SPM 独立学习到擦除不同的潜在风险的能力,这些 SPMs 就构成了一个概念擦除库,其中任何概念的组合(例如 Van Gogh + nudity)都可以根据需求场景定制,并直接免训练地迁移到其他 SPM 兼容的模型中(例如社区中的 RealisticVision 模型)。

在适配 SPM 后的推理过程中,本文的 Facilitated Transport 机制在接受输入 prompt 时会动态地控制 SPM 的激活和渗透性。例如,包含不雅内容的 prompt 将由 nudity SPM 擦除,但不会触发 Van Gogh SPM。同时,没有在 DM 中安装相应 SPM 的 Picasso 风格的生成几乎不会受到影响。

1919afb11e7559438c1f8fb0090d9aa5.png

▲ 图7. SPM 技术框架

2.1 轻量化的一维Adapter:SPM

为了摆脱预训练模型的参数依赖,本文设计了一种轻量高效的 Adapter,SPM。它仅有一个内在维度,作为一种「半透薄膜」被插入到 DM 中来实现精准擦除。

SPM 的单元结构由两个可学习的向量组成。擦除信号17858ef7f681e38989746b5a1c757c99.png用于抑制特定概念的生成,而它的振幅1516619521fbabd622c558d4451404cd.png由对应的调节器控制,以确定擦除的强度。

969b4135a6f565a1a2b6cd31548cba80.png

SPM 的结构设计使得多个 SPM 可以叠加地插入到同一个 DM 中,基于信号加法的擦除使得多个危险概念可以灵活定制,以满足错综复杂且不断变化的擦除需求。此外,它可以在大多数的 DM 上轻松迁移,相比现有方法,显著提高推理、部署和存储效率。

2.2 微调阶段的概念半透性精准习得:Latent Anchoring

本文通过模型参数微调使 SPM 获得对特定概念的擦除半渗透性。基于 LDM 中概念的叠加与消去对应于对数概率算数运算的理论,本文对 SPM 进行参数化,以在 DM 的噪声预测过程中执行概念的擦除。

具体而言,给定目标概念4d7fe982c95f963642d137ad48e90c67.png,本文预定义一个代理概念514a90c23e43e18e0f12d88d72ddc0e9.png(或一般地,空字符串),用来指定目标概念擦出后模型预期的行为,擦除损失如下:

c90bcd831fb4e544936a26f5e6411ec9.png

然而,仅用上述学习目标会引发 DM 中其他概念的灾难性遗忘,导致生成中概念的侵蚀现象。对此,本文提出 Latent Anchoring 策略,在上式基础上,对于其他的尤其是距离目标概念更远的概念,本文期望模型尽可能地与原生成保持一致

其中有:

c3970e78c9ebff3f83e932c6214479ec.png

261c4bb3c5ed9b601ccd8e9c1fbac91c.png是影响目标概念近义词行为的超参数。

目标概念的精准擦除和安全概念的广泛保留由5b8ea28e8b69c72260bbd14b72f55f86.png平衡,SPM 的微调总损失如下:

4d0cfb6efec435a18afd6983444fd4d1.png

2.3 生成阶段的概念半透性动态适配:Facilitated Transport

当前文得到一系列擦除不同目标的独立 SPM 后,可以将它们不冲突地组合并覆盖在其他 DM(如34aa970c6f36a690a13002aa078d122f.png)上:

9e1ef5f166f212a0e4c8fb3831fbb98b.png

尽管 Latent Anchoring 旨在在微调过程中保护非目标概念,但在安装了多个 SPM 的挑战性场景中,已有方法的结果表明整体生成效果不可避免地退化。为了进一步最小化对无关概念的影响,本文在推理阶段引入 Facilitated Transport 机制,动态地传输目标概念的擦除信号,同时拒绝 SPM 对非目标概念的响应。

具体地,对于给定的 prompt p,每个 SPM 的信息渗透性和传输速率,表示为f307a528627a96582113b424e3e40c37.png,取决于 p 中包含的目标概念 c 的概率。为了估计这个概率,本方法首先在 CLIP 文本编码空间中计算 p 和 c 的语义距离,表示为c07d98a5f5be3c33b253c43756892862.png。然而,潜空间上的距离作为一种全局视角可能无法完全捕捉到简单的概念名称和复杂的 prompt 局部描述之间的相关性。为此,本文又引入了局部的度量标准,以在 token 级别上识别相关性:

8cac91ecd5cf7db639939cd99aba4206.png

其中 T 表示 DM 的 Tokenizer。

最终将15bed6c97ae9f69e73beabefe643b69c.png计算为:

fec569014a8340aca67319e58fcb54e7.png

以在全局和局部两个视角下捕捉到 prompt 和目标概念的相关性。当输入的 prompt 中蕴涵了概念 c 的相关信息, 一个较大的4bd15bd62e1ae97c4e3f017dd5f297f8.png将会在在上文公式中激活对应的 SPM,使得相应的生成被抑制;反之,6bc25aecf670f7d747ceee19226a63b6.png将接近于零,保持生成与原有模型一致。

e28f03ac1d2b7ef7db4d77afcd5c5fb9.png

实验效果

3.1 单概念的擦除

面对具体概念如「史努比」(图 8 一行五列),抽象概念如「梵高画风」和「毕加索画风」(图 9 一行六列,四行六列),SPM 都擦除足够彻底,且对其他概念几乎没有影响。而其他方法或擦除不彻底,或对无关概念有所破坏。

96e31d5a3f741d18eecc735b6ff55126.png

▲ 图8. 擦除史努比的效果

e2b4236ddac540ff2ac23b3e19898136.png▲ 图9. 擦除梵高、毕加索画风的效果

3.2 多概念的擦除

擦除多个概念时,SPM 能保持稳定效果如图 10,且不会影响其他无关概念如图 11,而其他方法都或多或少对无关概念进行侵蚀。

1624b4a489851c1cac2b9827090b27ba.png▲ 图10. SPM 对多个概念的擦除效果

da73a6eeef263abf1995c876135498b7.png▲ 图11. SPM 擦除多概念时对无关概念没有影响

3.3 违规概念的擦除

如图 12,对于一些抽象的有害概念例如色情,只需要加入 SPM,即可做到相对稳定的消除。如图 13,在学界著名的 I2P 测评集合上,SPM 对于色情概念的擦除效果目前达到了业界最优。

 94dea7cd8e7ddc658afb9afdadd7f9d9.png

▲ 图12. 擦除色情概念的效果

966ea42dcb6a618650b5d655e262f91d.png▲ 图13. 色情概念擦除效果业界最优

3.4 无需训练的迁移

如图 15 显示,当 SPM 训练完成后,就可以直接迁移到同样架构、不同参数的其他模型上,达成即插即用的擦除目的。

532af4d66617d65bb84581eb032cc39e.png▲ 图15. 在不同社区模型下的擦除表现

ce735c909ebf9f3fa59fbd5c2df57f36.png

结论

SPM 针对视觉 AIGC 的可控擦除,能够带来更多创作可能性,也能通过擦除危险概念帮助 AI 向善。未来可以迁移到视频侧、3d 侧等各种模态下的概念编辑和擦除工作,都会成为后续 Sora 时代值得研究的点。

更多阅读

a78647da6d2f8751cef61b1c46d119fc.png

181d29d5f0ffbd8bded6602a50f4f3e2.png

27d7ba6b9ed874fa663d6244e2b48d48.png

5072889772fe0083610d40b22762d41b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

d237e7242ab9a32f0d32aaa94fde154e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

68906a31b08aff5b1c5e0934d21022b3.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值