SPM~概念半透膜模型

whaosoft143

已于 2024-03-13 14:12:19 修改

阅读量474

点赞数 8

分类专栏：人工智能文章标签：人工智能

于 2024-03-13 14:05:31 首次发布

本文链接：https://blog.csdn.net/qq_29788741/article/details/136678570

版权

人工智能专栏收录该内容

2590 篇文章

订阅专栏

一只橘猫，减去「猫」，它会变成什么？

第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」，画出一只长得很像面包的猫猫，然后用概念半透膜 SPM 技术，将猫猫这个概念擦掉，结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个概念后的结果。AI图片橡皮擦来了，清华&阿里合作推出「概念半透膜」模型，还能改头换面

图 1 概念半透膜 SPM 针对不同的「猫」图擦除猫概念后的效果

下图 2 到图 6 展示了更多的示例。

图 2 失去梦想变成一只面包表情包

图 3 西装光剑米老鼠图擦除米老鼠概念

图 6 毕加索的抽象画擦除毕加索概念

这便是清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型），该模型能够在 Diffusion 架构的 AI 作图模型中，精准、可控地擦除各类具象或抽象概念，并对无关概念做到几乎完全保留。

相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。

项目主页：https://lyumengyao.github.io/projects/spm
Github 地址：https://github.com/Con6924/SPM
论文地址：https://arxiv.org/abs/2312.16145

阿里集团资深总监、人工智能治理与可持续发展研究中心主任、集团科技伦理治理委员会执行主席薛晖表示：该项成果在通义大模型系列的 AIGC 内生安全领域、可控生成等方面都具备落地潜力，能够有效避免有害概念的侵害，促进通义等 AI 技术产品可用、可靠、可信、可控地向善发展。

1、动机和研究背景

前不久，OpenAI 的文生视频模型 Sora 带来了 AIGC 新时代，主流的视觉 AIGC 基于扩散模型（Diffusion Model，DM），但依然存在各类问题，比如可以被诱导生成涉黄、侵权等危险概念、无法精准地对某些概念进行作画和控制等。这里的「概念」可以是具象的「苹果」，也可以是抽象的「梵高风」、「色情」、「暴力」。

外置安全系统拦截风险会造成较差的用户体验（一些无恶意的用户可能在创作时，因为模型偶然生成一些违规内容而被拦截），因此需要一种基于模型内生安全的概念擦除方法，保留用户意图，同时对模型违规元素进行柔性地精准擦除。

针对此，本文提出了概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型）。

2、技术框架

如下图 7 所示，给定一个目标概念，本文的主要目标是从预训练的 DM 中精确地擦除该概念，同时保留其他生成内容。

为了避免对特定 DM 参数的依赖和训练过程中出现的参数漂移，本文首先设计了一种轻量化的一维 Adapter，称为概念半透膜（concept Semi-Permeable Membrane，SPM）。这种极轻量的非侵入性结构可以插入任何预训练的 DM（如 SD v1.x）中，以学习特定概念的可迁移识别及其相应的擦除，同时保持原始模型的完整性。

然后，本文提出了一种新颖的 SPM 微调策略 ——Latent Anchoring（LA），以有效地在潜空间中利用连续的概念进行精确的擦除和有效的概念保留。一旦 SPM 独立学习到擦除不同的潜在风险的能力，这些 SPMs 就构成了一个概念擦除库，其中任何概念的组合（例如 Van Gogh + nudity）都可以根据需求场景定制，并直接免训练地迁移到其他 SPM 兼容的模型中（例如社区中的 RealisticVision 模型）。

在适配 SPM 后的推理过程中，本文的 Facilitated Transport 机制在接受输入 prompt 时会动态地控制 SPM 的激活和渗透性。例如，包含不雅内容的 prompt 将由 nudity SPM 擦除，但不会触发 Van Gogh SPM。同时，没有在 DM 中安装相应 SPM 的 Picasso 风格的生成几乎不会受到影响。