Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
摘要
文生图个性化生成工具,比如DreamBooth,可以通过学习几张参考图片的情况下,生成特定人物的图片。然后,当这些工具被不正当地使用时,可能生成一些不合适的图片而造成恶劣的社会影响。为了解决这个问题,本文提出了Anti-DreamBooth以防御DreamBooth的恶意使用。该方法通过向图片中添加噪声,即可使得任何在这些扰动后的图片上训练的DreamBooth模型生成的图片质量下降。
介绍
文生图模性的一个流行的应用场景是个性化,其根据给定的一些参考图片,生成特定主体的图片。其中的代表工作是Textual Inversion [20] 和 DreamBooth[47],前者优化了embeddings,而后者微调了文生图模型本身以获取更好的个性化质量。因此,DreamBooth被广泛应用于多个应用。但是,DreamBooth同样有可能被用于假新闻的生成。受DeepFake的防御方法的启发,本文提出主动防御DreamBooth给用户带来的威胁,通过在发布图片前向图片中添加噪声。
本文在两个面部数据集基准上、多个不同的文生图模型、不同的训练提示词甚至在攻击情形下,验证了DreamBooth的有效性。
本文的主要贡献如下:
- 提出了一个新的任务,防御个性化图片生成的威胁。
- 为了应对这个新任务,本文提出了Anti-DreamBooth,通过在发布图片前向其中添加噪声,主动地防止个性化模型生成期望的图片。该方法在2个数据集和多个不同的个性化模型和设置下验证了有效性。
问题
作者在这部分介绍了对砍攻击、扩散模型、基于提示词的扩散模型、DreamBooth模型的基础知识,并给出了本文所提方法的问题定义。
背景
DreamBooth.
这里,
x
0
x_0
x0是参考图片,
c
c
c的一般模板为“a photo of sks [class noun]”,其中sks代表目标人物,“[class noun]” 代表目标类型,其可以用于个性化人类主题。
c
p
r
c_{pr}
cpr是一个先验提示词,例如“a photo of [class noun]”。第一项是为了生成符合提示词语义和参考图片内容的个性化图片,第二项是为了防止过拟合。
所提方法
所提方法的损失函数如下:
第一行的公式代表DreamBooth模型的生成能力最差,第二行公式代表满足DreamBoth的损失函数最小,第三行公式代表扰动小于特定阈值。大体上可以理解为,保护后的图片上的噪声扰动是不可感知的(第三行),在保护后的图片上训练的DreamBooth模型是满足损失函数最优的(第二行),但是不能生成预期的图片(第一行)。