论文:Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
代码:https://github.com/VinAIResearch/Anti-DreamBooth.git.
1.问题和贡献
恶意攻击者可以收集用户的图像来训练用于恶意目的的个性化文本到图像生成器。我们的系统,叫做Anti-DreamBooth,在发布之前对用户的图像施加难以察觉的扰动,使得任何在这些图像上训练的个性化生成器都无法产生可用的图像,从而保护用户免受这种威胁。
本文贡献如下:
(1)我们讨论了个性化文本到图像合成的潜在负面影响,特别针对DreamBooth技术,定义了一项保护用户免受这一关键风险的新任务;(2)我们建议在发布之前通过在用户的图像中添加对抗性噪声来主动保护用户免受威胁;(3)我们设计了不同的对抗性噪声生成算法,适应基于步骤的扩散过程和基于微调的DreamBooth过程。(4)我们在两个面部基准和不同配置下广泛评估了我们提出的方法。我们最好的防御在有利和不利的情况下都有效
2.论文基础
DreamBooth,advDM
3.Anti-DreamBooth实现思想
优化目标
其中Lcond是latent diffusion model的条件去噪损失,Ldb是DreamBooth技术的训练损失
3.1 Fully-trained Surrogate Model Guidance (FSMG)
首先用干净样本(clean set)和一个训练好的latent diffusion model(Pretrained model)进行DreamBooth微调,训练好得到一个代理模型Surrogate DreamBooth model,然后重新将干净样本在代理模型上执行PGD攻击,使得下面的Lcond损失最大化(也就是执行advDM攻击),生成的图片即对抗样本,这些对抗样本可以防止被滥用于进行个性化文生图
3.2 Alternating Surrogate and Perturbation Learning (ASPL)
使用在干净数据上完全训练的代理模型可能不是解决上面优化目标的最佳近似,受[26]的启发,我们提出以交替的方式将代理DreamBooth模型的训练与扰动学习结合起来。
其实就多了一步将中间对抗样本放到模型中进行DreamBooth训练,可以理解为进行对抗训练提高模型鲁棒性,让后面针对模型添加的噪声添更加多样化,从而产生强大的攻击能力
4.实验
4.1 实验准备
4.1.1 数据集
- 选择标准:作者选择了两个面部数据集,这些数据集需要满足以下标准:包含大量不同主体的标注图像,每个主体有足够的图像形成参考集和保护集,图像分辨率中等至高,以及图像多样化且在野外环境中拍摄。
- CelebA-HQ:这是一个高质量的CelebA数据集版本,包含30,000张1024×1024分辨率的图像。作者使用了注释子集,该子集过滤并分组了307个主体,每个主体至少有15张图像。
- VGGFace2:这个数据集包含了大约3.31百万张9131个人身份的图像。作者过滤了数据集,选择了分辨率至少为500×500的图像
[2] CelebA-HQ-Face-Identity-and-Attributes-Recognition-PyTorch. https://github.com/ndb796/
CelebA-HQ-Face-Identity-and-Attributes-Recognition-PyTorch.
[29]Progressive growing of gans for improved quality, stability,and variation. arXiv preprint arXiv:1710.10196, 2017
Qiong Cao, Li Shen, Weidi Xie, Omkar M. Parkhi, and An-drew Zisserman. VGGFace2: A dataset for recognising faces across pose and age. In International Conference on Auto-matic Face and Gesture Recognition, 2018
4.1.2 训练配置
- 模型训练:作者训练了每个DreamBooth模型,包括文本编码器和UNet模型,批量大小为2,学习率为5×10^-7,训练步骤为1000步。
- 预训练生成器:默认情况下,使用最新的Stable Diffusion (v2.1) 作为预训练生成器。
- 训练提示:训练实例提示和先前提示分别是“a photo of sks person”和“a photo of person”
4.1.3 评价指标
- Face Detection Failure Rate (FDFR):使用RetinaFace检测器测量生成图像中无法检测到面部的比率。
- Identity Score Matching (ISM):是一种用于评估图像识别系统性能的指标,特别是在人脸识别领域。它衡量的是两个图像之间的相似度,通常用于比较同一人脸图像的(embeddings)与不同人脸图像嵌入之间的差异。在人脸识别系统中,ISM 可以帮助确定两个图像是否属于同一个人
- 图像质量评估:使用SER-FQA和BRISQUE两个图像质量评估指标。
4.2 提出的四种攻击方法的对比实验
4.2.1 数据展示
这张实验图(Table 1)展示了在不同数据集上,使用不同防御方法(No Defense, FSMG, ASPL, T-FSMG, T-ASPL)时,DreamBooth模型生成图像的防御性能比较。这些方法旨在防止DreamBooth模型生成高质量的个性化图像。表格中列出了几个关键的评估指标:Face Detection Failure Rate (FDFR)、Identity Score Matching (ISM)、SER-FQA和BRISQUE。这些指标用于衡量生成图像的质量,以及它们在面部检测、身份匹配和图像质量方面的表现。以下是对这些指标的分析:
-
Face Detection Failure Rate