【读点论文】Fawkes: Protecting Privacy against Unauthorized Deep Learning Models 添加像素扰动来实现图片的对抗AI识别

最新推荐文章于 2024-04-25 09:35:34 发布

羞儿

最新推荐文章于 2024-04-25 09:35:34 发布

阅读量2.1k

点赞数 6

分类专栏：论文笔记文章标签：隐私保护深度学习

本文链接：https://blog.csdn.net/weixin_43424450/article/details/123412017

版权

论文笔记专栏收录该内容

160 篇文章

订阅专栏

Fawkes: Protecting Privacy against Unauthorized Deep Learning Models

当今强大的面部识别系统的激增对个人隐私构成了真正的威胁。正如Clearview.ai所展示的那样，任何人都可以在互联网上搜索数据，并在他们不知情的情况下训练个人的高度准确的面部识别模型。需要工具来保护自己免受未经授权的面部识别系统的潜在滥用。不幸，不存在实际或有效的解决办法。
为了保护个人隐私，来自芝加哥大学计算机科学系的研究团队开发了一款人工智能工具——Fawkes。提出了Fawkes，这是一个帮助个人对他们的图像进行接种以抵御未经授权的面部识别模型的系统。福克斯通过帮助用户在发布照片之前给自己的照片添加难以察觉的像素级变化(本文称之为“clocks”)来实现这一点。当用于训练面部识别模型时，这些“隐藏”的图像产生功能模型，这些模型总是导致用户的正常图像被错误识别。
通过实验证明，无论trackers如何训练他们的模型，Fawkes都可以提供95%以上的用户识别保护。即使当干净、无阴影的图像被“泄露”给trackers并用于训练时，福克斯仍然可以保持80+%的保护成功率。
在针对当今最先进的面部识别服务的实验中取得了100%的成功。最后，证明了Fawkes对各种试图检测或破坏图像伪装的对抗措施是鲁棒的。
从团队公布的数据看，这套工具已经成功骗过了旷视、微软、亚马逊等公司的面部识别算法。
Fawkes的命名取自Guy Fawkes Mask（盖伊·福斯克面具）。该面具形象是英国插图画家大卫·劳埃德（David Lloyd）以16世纪英国阴谋家盖伊·福克斯的脸为原型而创造。最早出现在漫画《V字仇杀队》中。

Introduction

面部识别系统在没有明确同意的情况下扫描了英国和中国数百万公民。到2021，100%的国际旅客将被要求在美国前20大机场接受面部识别系统。也许更重要的是，任何拥有中等资源的人现在都可以在本人不知情或不知情的情况下浏览互联网并建立高度准确的面部识别模型，例如MegaFace。

《纽约时报》的克什米尔希尔最近报道了Clearview.ai，这是一家私人公司，收集了超过30亿张在线照片，并训练了一个能够识别数百万公民的大规模模型，所有这些都是在不知情或未经同意的情况下。人脸识别先驱Joseph Atick在接受《纽约时报》采访时表示，“虽然我鼓励这类研究，但我对其是否是能解决我们所面临的问题保持高度怀疑。”他认为只有立法才能从根本上解决人脸识别所导致的隐私泄露问题。

滥用这项技术的机会很多，而且可能是灾难性的。无论我们走到哪里，我们都可以通过街头摄像头、视频门铃、安全摄像头和个人手机随时被识别出来。跟踪者只需一张快照就能发现我们的身份和社交媒体资料。商店可以将我们精确的店内购物行为与在线广告和浏览资料联系起来。身份窃贼可以很容易地识别(并可能获得访问)我们的个人账户。

普通公民需要工具来保护自己不被未经授权的面部识别模型识别。不幸，以前在这个领域的工作很少，并且在实用性和有效性方面都很有限。一些人提出扭曲图像使其不可识别，从而避免面部识别。还有一些人以运动衫或标志上印刷的明亮图案的形式产生敌对的补丁，这种补丁甚至阻止面部识别算法将穿着者登记为个人。最后，给定对图像分类模型的访问，“clean-label poison attacks”可以导致模型错误识别单个预选图像。

提出了Fawkes，这是一个帮助个人在任何时候针对未经授权的面部识别模型接种图像的系统，而不会明显扭曲他们自己的照片，也不会佩戴明显的补丁。福克斯通过帮助用户给自己的照片添加难以察觉的像素级变化(“clocks”)来实现这一点。例如，想要在社交媒体或公共网络上共享内容(例如照片)的用户可以在上传照片之前对其进行细微的修改。如果由第三方“tracks”收集并用于训练面部识别模型来识别用户，这些“隐形”图像将产生一贯错误识别他们的功能模型。

失真或“伪装”算法获取用户的照片，并计算出最小的扰动，使在面部识别模型的特征空间中发生显著移动(使用第三方的真实或合成图像作为标志)。使用用户的这些图像训练的任何面部识别模型都可以学习一组改变的“特征”，这些特征使用户看起来像他们。当呈现用户的干净的、无阴影的图像时，例如来自照相手机或街灯相机的照片，模型在图像附近的特征空间中没有找到与用户相关联的标签，并且将照片分类到特征空间中附近的另一标签(身份)。

对福克斯的探索产生了几个关键的发现:

可以使用肉眼察觉不到的扰动(DSSIM ≤ 0.007)对图像的特征空间表示产生显著的改变。
无论追踪器如何训练其模型(通过转移学习或从头开始)，图像伪装都可以提供95%以上的防止用户识别的保护(对抗性训练技术有助于确保伪装转移到追踪器模型)。
来自微软(Azure Face API)、亚马逊(Rekognition)和Face++的最先进的面部识别服务相比，成功率为100%。首先“分享”自己的(遮盖的)照片作为每个服务的训练数据，然后将结果模型应用于同一个人的未遮盖的测试图像。
在具有挑战性的场景中，干净、无阴影的图像被“泄露”给跟踪器并用于训练，本文的模型展示了单个Sybil身份如何增强隐私保护。这导致80%以上的避免识别的成功率，即使当一半的训练图像未被遮蔽时。
考虑一个跟踪者，他知道本文的图像伪装技术，并评估潜在对策的有效性。证明了图像伪装对伪装破坏和伪装检测的各种机制都是鲁棒的(保持高保护率)。

Fawkes主要有两个特点：首先是可以对照片进行肉眼无法察觉的修改。对机器学习模型而言，图像是代表像素的数字。个体的特征由被神经网络系统以数学形式组织而成，人脸识别模型基于此识别个体。Fawkes仅对照片的部分像素进行修改，计算机会察觉，而人眼难以分辨。研究团队将这一过程称为“伪装”。Fawkes第二个特点是无论应对何种人脸识别系统，图像伪装都能为用户提供95%以上的成功率。即使将未处理过的原图提前 “泄漏”给人脸识别系统，该工具仍然保持80％以上的成功率。

提出的福克斯系统通过隐藏用户的在线照片来保护用户隐私。(左)用户U应用隐形算法(给定一个特征提取器φ和来自某个目标T的图像)来生成U的照片的隐形版本，每个版本都有人眼察觉不到的小扰动。(右)追踪器从在线来源抓取遮盖的图像，并使用它们来训练(未经授权的)模型以识别和追踪U。当涉及到对U的新(未遮盖的)图像进行分类时，追踪器的模型会将它们错误地分类到非U的人。请注意，T不必存在于追踪器的模型中。

Background and Related Work

为了保护用户隐私，本文的图像伪装技术利用并扩展了机器学习中广泛定义为中毒攻击的工作。在这里，通过讨论之前帮助用户规避面部识别模型的努力来设置背景。然后，讨论相关的数据中毒攻击，随后是隐私保护机器学习的相关工作和训练面部识别模型的技术。

注意，为了保护用户隐私免受未经授权的深度学习模型的攻击，采用了针对ML模型的攻击。在这个场景中，用户是“攻击者”，运行未授权跟踪的第三方跟踪器是“目标”。

Protecting Privacy via Evasion Attacks

隐私倡导者已经考虑了保护个人免受面部识别系统攻击的问题，通常是通过使图像难以被面部识别模型识别。有些依赖于创建对立的例子，输入到模型中，旨在造成错误分类。这些攻击已经被证明在“自然状态下”是可能的，Sharif等人创造了特殊印刷的眼镜，导致佩戴者被错误识别。科姆科夫和Petiushko表明，在帽子上精心设计的敌对标签会降低佩戴者被认出的可能性。其他人提出了针对“人识别”模型的“对抗性贴片”，使模型难以将佩戴者识别为图像中的人。
所有这些方法都有两个局限性。首先，它们要求用户佩戴相当明显和显眼的附件(帽子、眼镜、毛衣),这对于正常使用是不切实际的。第二，为了逃避跟踪，他们需要对跟踪他们的精确模型的完全和不受限制的访问(白盒访问)。因此，它们很容易被任何更新其模型的追踪器破解(并损害用户隐私)。
另一项工作试图编辑面部图像，以便保留类似人类的特征，但面部识别模型的准确性显著降低。使用的方法包括k-means面部平均，面部修复和基于GAN的面部编辑。由于这些会显著改变用户照片中的脸部，认为它们对于保护共享内容是不切实际的。

Protecting Privacy via Poisoning Attacks

逃避模型的另一种方法是打断模型的训练。这种方法利用针对深度学习模型的“数据中毒攻击”。这些攻击通过修改用于训练深度学习模型的初始数据来影响深度学习模型，通常是通过添加一组样本S和相关联的标签ls。先前的工作已经使用数据中毒在训练的DNNs中诱发意外的行为。在本节中，将讨论种数据中毒攻击，并确定它们在用于保护用户隐私时的主要局限性。

Clean Label Attacks：将“正确”标记的中毒图像注入到训练数据中，导致根据该数据训练的模型错误分类感兴趣的特定图像。干净标签攻击与普通中毒攻击的区别在于，在中毒过程中，所有图像标签都保持不变，只有中毒图像的内容会发生变化。

福克斯也有类似的限制。Fawkes影响或破坏模型的行为仅限于用正确的标签更改一组图像，即用户可以更改她的图像，但不能声称这些是其他人的图像。

由于三个因素，当前的干净标签攻击不能解决隐私问题。

首先，它们仅导致对单个预选图像的错误分类，而用户隐私保护要求对受保护用户的任何当前或未来图像的错误分类(即，整个模型类)。
第二，干净标签攻击不能很好地转移到不同的模型，尤其是从零开始训练的模型。即使在基于相同数据训练的模型之间，攻击也只有30%的成功率。
第三，干净标签攻击很容易通过特征空间中的异常检测来检测。

Model Corruption Attacks：一些工作提出了修改图像的技术，以使它们降低在其上训练的模型的准确性。目标是传播这些中毒图像，以阻止未经授权的数据收集和模型训练。注意到福克斯的目标是mislead而不是frustrate。简单地破坏用户类别的数据可能会无意中通知跟踪器用户的逃避尝试，并导致跟踪器采取更高级的对策。最后，在保护用户不被识别方面只有50%的成功率。

Other Related Work

Privacy-Preserving Machine Learning.

ML模型可以记住(并随后泄露)部分训练数据。这可以被利用来暴露关于训练数据集成员的隐私细节。这些攻击刺激了差分隐私模型训练的发展，它使用差分隐私领域的技术来保护训练数据的敏感特征。注意到这些技术意味着一个可信任的模型训练者，而对一个未授权的模型训练者无效。

Feature Extractors & Transfer Learning.

迁移学习使用现有的预训练模型作为基础，使用较少的训练数据快速训练定制分类任务的模型。它通常用于以合理的训练成本部署复杂的ML模型(例如，面部识别或图像分割)。
在迁移学习中，预先训练的特征提取器 $\phi$ 的知识被传递给新的模型Fθ。典型地，模型Fθ可以通过将一些额外的层附加到 $\phi$ 上并且仅训练这些新层来创建。组成 $\phi$ 的原始层将保持不变。因此， $\phi$ “学习”的预先存在的知识被传递给模型Fθ，并直接影响其分类结果。最后，当在相似的数据集上训练特征提取器和模型时，迁移学习是最有效的。例如，根据从YouTube视频中提取的人脸训练的面部识别模型，可能很好地充当用于识别杂志中名人的模型的特征提取器。
最后，保护个人隐私免受侵入性技术侵害的概念超出了图像领域。目前提出了使用数字干扰器恢复个人代理的可穿戴设备，以防止无处不在的数字家庭助理的音频窃听。

Protecting Privacy via Cloaking

提出了Fawkes，这是一个旨在帮助保护用户隐私的系统，可以防止未经授权的面部识别模型通过第三方跟踪器对用户图像进行训练。福克斯通过在分享用户的图像之前给它们添加微妙的扰动(“斗篷”)来实现这一点。在隐形图像上训练的面部识别模型将在“特征空间”中具有扭曲的用户视图，即模型对用户独特性的内部理解。因此，模型不能识别用户的真实(未遮蔽的)图像，而是将他们误分类为其他人。

Assumptions and Threat Model

User：用户的想法是在线分享他们的照片，而不会在不知不觉中帮助第三方追踪者建立可以识别他们的面部识别模型。用户在分享照片之前，通过给照片添加不易察觉的干扰(“斗篷”)来保护自己。这在下图的左部有所展示，在上传之前，这个用户的照片被添加了一个斗篷。

用户U应用隐形算法(给定一个特征提取器φ和来自某个目标T的图像)来生成U的照片的隐形版本，每个版本都有人眼察觉不到的小扰动。

这些clocks的设计目标是:

clocks应该是不易察觉的，并且不影响图像的正常使用；
当对正常的、未遮盖的图像进行分类时，在遮盖的图像上训练的模型应该以较低的准确度识别出下面的人。

假设用户可以访问中等计算资源(例如，个人笔记本电脑)，并在本地对他们自己的图像应用隐藏。还假设用户可以访问某些特征提取器，例如通用面部识别模型，在上图中表示为 $\phi$ 。如果用户与跟踪器具有相同的 $\phi$ ，则隐身被简化。从这个常见的假设开始，因为在自然状态下只有少数大规模的人脸识别模型可用。

Tracker/Model Trainer：假设追踪者(训练未授权模型的实体)是无法直接访问用户个人照片的第三方(即不是脸书或Flickr)。追踪者可能是像Clearview.ai这样的公司，政府实体，甚至是个人。跟踪器具有大量的计算资源。他们可以使用迁移学习来简化他们的模型训练过程(利用现有的特征提取器)，或者完全从头开始训练他们的模型。

还假设跟踪者的主要目标是建立一个强大的模型来跟踪许多用户，而不是针对单个特定的人。追踪器的主要数据来源是通过网络搜集获得的用户公开图像的集合。还考虑了他们能够从其他来源获得一些非阴影图像的情况。

Real World Limitations：福克斯的隐私优势依赖于用户在发布到网上之前将本文的隐形技术应用到他们相似的大多数图像上。然而，在实践中，用户不太可能控制自己的所有图像，例如朋友和家人、媒体、雇主或政府网站在网上分享的照片。虽然还不清楚追踪者将这些图像与用户的身份关联起来有多容易或有多困难，但获得大量用户的未遮蔽图像的追踪者可能会损害Fawkes的有效性。

Fawkes在与其他隐私增强措施结合使用时最有效，这些措施可以最大限度地减少用户未遮盖图像的在线可用性。例如，用户可以管理他们的社交媒体形象，并删除应用于脸书或Instagram上的集体照片的姓名标签。用户还可以利用隐私法，如“被遗忘权”，删除和取消与自己相关的在线内容。个人图像的在线保护是一个具有挑战性的问题，将最小化在线图像足迹的研究留给未来的工作。

Overview and Intuition

训练DNN模型来识别和提取输入数据中的(通常是隐藏的)特征，并使用它们来执行分类。然而，在模型训练期间，他们识别特征的能力很容易被数据中毒攻击破坏，其中带有特定标签(l)的训练数据的小扰动可以改变模型对哪些特征唯一识别(l)的看法。
本文的工作利用这一特性来导致单个类别的任何现有或未来图像的错误分类，为保护个人隐私免受面部识别模型的无节制传播的挑战性问题提供了一种解决方案。
直观地说，本文的目标是通过在将照片发布到网上之前以微小且不易察觉的方式修改照片来保护用户的隐私，这样，在照片上训练的面部识别模型就会学习关于什么使用户看起来像用户的错误特征。该模型认为它是成功的，因为它正确地识别了用户的(修改的)图像样本。
然而，当用户的未改变的图像，例如来自监控视频的图像，被输入到模型中时，模型不检测它与用户相关联的特征。相反，它会将其他人识别为视频中的人。通过简单地修改他们的在线照片，用户成功地阻止了未经授权的追踪者和他们的DNN模特认出他们的真实面孔。

Computing Cloak Perturbations

如何确定什么样的扰动(称之为“斗篷”)适用于Alice的照片呢？一件有效的斗篷将教会人脸识别模型将Alice与错误特征相关联，这些错误特征与定义Alice的真实特征完全不同。直觉上，这些错误特征与真实的Alice越不相似或越明显，模型就越不可能识别出真实的Alice。

下面描述了为每个特定用户计算遮掩的方法，目标是使从遮掩的照片中学习到的特征与从原始(未遮掩的)照片中学习到的特征非常不同。

符号

x:Alice的照片(未遮盖)
xT:用于为Alice生成斗篷的目标图像(来自另一个类/用户T的图像)
δ(x，xT):基于来自标签T的图像xT为Alice的图像x计算的斗篷
x ⊕ δ(x，xT):Alice图像x的隐形版本
$\phi$ :面部识别模型使用的特征提取器
$\phi(x)$ :从输入x中提取的特征向量(或特征表示)

最大化特征偏差的遮盖

给定Alice的每张照片(x)要在线共享，本文的假设伪装设计通过向x添加伪装扰动δ(x，xT)来修改x，这最大化了x的特征表示的变化:

$max_\delta{Dist(\phi(x),\phi(x\oplus\delta(x,x_T))}\\ subject\space to\space |\delta(x,x_T)|<\varphi$

其中Dist(.)计算两个特征向量的距离，|δ|测量由遮掩引起的感知扰动，ρ是感知扰动预算。

为了指导对上等式中的斗篷扰动的搜索，使用来自不同用户类别(T)的另一图像xT。由于特征空间 $\phi$ 非常复杂，所以xT充当标志，使得能够快速有效地搜索导致特征表示中的大变化的输入扰动。理想情况下，T应该在特征空间中与Alice非常不同。在添加扰动的模型图中说明了这一点，其中使用帕特里克·德姆西(男演员)作为原始用户(女演员格温妮丝·帕特洛)的不同目标T。

注意到，本文的设计没有假设任何跟踪器的面部识别模型都使用斗篷目标(T)和相关联的xT。事实上，任何一个用户，只要他的特征表现与Alice的特征表现足够不同，就足够了。Alice可以通过在其他用户的在线照片上运行特征提取器 $\phi$ 来轻松检查这种不相似性。

Image-specific Cloaking.

当为这个女星的照片创建斗篷时，Alice将产生特定于图像的斗篷，即δ(x，xT)是图像相关的。具体而言，Alice将每个原始图像x与类T的目标图像xT配对。在当前的实现中，对δ(x，xT)的搜索取代了上等式定义的理想优化。改为进行以下优化:

$min_\delta{Dist(\phi(x_T),\phi(x\oplus\delta(x,x_T))}\\ subject\space to\space |\delta(x,x_T)|<\varphi$

搜索x的斗篷，该斗篷将其特征表示紧密地向xT移动。这种新形式的优化还防止系统产生极端的φ(x⊕δ(x，xT))值，这些值可以容易地被使用异常检测的跟踪器检测到。

生成的图像特定的斗篷优化将在Alice的图像之间创建不同的斗篷图案。这种“多样性”使得追踪者很难发现和移除斗篷。

Cloaking Effectiveness & Transferability

用户(Alice)可以产生其特征表示与她自己的特征表示不同但与目标用户T的特征表示相似的掩蔽图像。但是，这是否会转化为跟踪器模型中期望的错误分类行为？显然，如果T是追踪器模型中的一个类，那么Alice的原始(未遮盖的)图像将不会被归类为Alice。但是在更有可能的情况下，T不在追踪器模型中，伪装仍然会导致错误分类吗？认为答案是肯定的。

本文的假设是，只要Alice的遮盖和未遮盖图像的特征表示足够不同，追踪器的模型就不会将它们归为同一类。这是因为在追踪器模型中会有另一个用户类(例如b)，其特征表示更类似于 $\phi(x)$ (真实Alice)而不是φ(x⊕δ)(模型学习的Alice)。因此，模型会将Alice的正常图像分类为b。

在下图中使用特征空间的简化2D可视化来说明这一点。追踪者希望区分4个类别(A、B、U(又名Alice)和T)。这两个图分别显示了当U的训练数据未被遮盖和被遮盖时，跟踪器模型的决策边界。在下图(a)中，模型将学习U的真实特征表示为右下角。在下图(b)中，U使用T作为斗篷目标，得到的追踪器模型将学习U的特征表示φ(x⊕δ，作为T(左上角)附近的绿色三角形。这意味着对应于U的原始特征表示φ(x)的区域将被分类为b。更重要的是，无论T是否是跟踪器模型中的类，都会发生这种(错误)分类。

为什么在U的遮盖照片上训练的跟踪器模型会对U的原始照片进行错误分类的直觉，在具有四个用户类别A、B、U(又名Alice)、T. (a)的简化2D特征空间上可视化在U的未遮盖照片上训练的模型的决策边界。(b)在对U的隐形照片(目标为T)进行训练时的决策界限。

上面的讨论假设追踪器的模型包含一个类，该类的特征表示比用户的隐蔽特征表示更类似于用户的原始特征表示。当追踪器的模型针对许多用户(例如1000)而不是少数用户时，这是一个合理的假设。在后文证实了隐形技术对65到10575个类别的多种面部识别模型非常有效。

Transferability

上述讨论还假设用户具有与用于训练跟踪器模型相同的特征提取器 $\phi$ 。在更一般的情况下，针对任何追踪器模型的伪装效果取决于可转移性效应，即针对类似任务训练的模型共享类似的属性和漏洞，即使它们是在不同的架构和不同的训练数据上训练的。
这种可转移属性表明，即使追踪器使用不同的特征提取器执行转移学习或从头开始训练他们的模型，伪装也应该仍然有效。因为用户和追踪者的特征提取器/模型是为类似的任务(即面部识别)而设计的，所以不管追踪者的训练方法如何，斗篷都应该是有效的。
根据经验评估了跟踪器使用不同特征提取器或从头开始训练模型时的伪装成功率。在所有场景下，clocks都是高效的(> 95%保护率)。

The Fawkes Image Cloaking System

Fawkes是一个实用的图像隐形系统，允许用户逃避未经授权的面部识别模型的识别。福克斯用三个步骤来帮助用户修改和发布她的在线照片。

给定用户U，Fawkes将待在线共享的U的照片集XU、(通用)特征提取器 $\phi$ 和斗篷扰动预算ρ作为输入。

第一步:选择一个目标类。首先，Fawkes检查了一个公开可用的数据集，该数据集包含许多组图像，每组图像都有一个特定的类别标签，例如Bob、Carl、Diana。Fawkes从该公共数据集中随机挑选K个候选目标类及其图像，并使用特征提取器 $\phi$ 来计算Ck，即每个类的特征空间的质心 $k = 1 . . K$ . Fawkes挑选K个候选集合中其特征表示质心与XU中所有图像的特征表示最不相似的类别作为目标类别T，即

$T=argmax_{k=1..K}\space{min}_{x\in{X_U}}\space{Dist(\phi(x),C_k)}$

使用L2作为特征空间中的距离函数。Dist(.).

第二步：计算每个图像的斗篷。对于用户U的每个图像，x ∈ XU，Fawkes随机选取一个图像 $x_T∈X_T$ ，并按照最上文第二个等式定义的优化来计算x的斗篷δ(x，XT)。服从|δ(x，xT )| < ρ。

|δ(x，xT )|是使用DSSIM(结构不相似指数)计算的。与前作使用的Lp距离不同，DSSIM作为用户感知的图像失真的一种测量方法已经得到广泛应用。使用这种度量生成边界斗篷可以确保图像的cloaks版本在视觉上与原始图像相似。

应用罚函数法来重新格式化和求解方程中的最优化问题

$KaTeX parse error: Undefined control sequence: \var at position 7: min_{\̲v̲a̲r̲}Dist(\phi(x_T)…$

λ控制由cloaks引起的输入扰动的影响。当λ → ∞时，隐形图像在视觉上与原始图像相同。最后，为了确保输入像素强度保持在正确的范围内([0，255])，将强度值转换到双曲正切空间。

第三步:限制内容。用户U已经创建了一组隐形图像，可以在网上发布和分享。然而，用户必须小心确保没有未遮盖的图像被在线共享并且与她的身份相关联。任何由朋友分享的、用她的名字标注或标记的图像都将为追踪者模型提供未遮盖的训练数据。用户可以在大多数照片分享网站上主动“取消标签”。

即便如此，第三方可能能够恢复这些标签，并使用friendlist交叉攻击在这些照片中重新识别她。后文扩展了Fawkes的设计，以解决除了用户的遮盖图像之外还能够获得未遮盖图像的跟踪器。

System Evaluation

给出了三种不同情况下的伪装结果:

1)用户使用与跟踪器相同的特征提取器来生成伪装；
2)用户和跟踪者使用不同的特征提取器；
3)跟踪器从头开始训练模型(没有特征提取器)。

主要发现是:当用户与跟踪器共享一个特征提取器时，伪装是非常有效的；当特征提取器不同时，效率可能下降，但是通过使用户的特征提取器健壮(通过对抗训练)，可以恢复到接近完美；同样地，即使追踪器从零开始训练模型，强健的特征提取器所产生的斗篷也能运作良好。

Experiment Setup

实验需要两个部分。首先，需要特征提取器，这些特征提取器构成了面部识别模型的基础，用于用户的cloaks目的和跟踪器的模型训练。第二，需要数据集来模拟追踪器抓取的一组用户图像，能够评估cloaks的影响。

Feature Extractors.

使用不同模型架构上的两个大型(≥ 500K图像)数据集来训练特征提取器(详情见下表)。
在实验中模拟用户图像的数据集。
VGGFace2包含从谷歌图片搜索下载的8631个主题的314万张图片。
WebFace有500000张人脸图片，涵盖了从互联网上收集的大约10000个主题。

使用这两个数据集，构建了四个特征提取器，每个提取器两个。使用两种不同的模型架构:
DenseNet-121 ，一种具有7M参数的121层神经网络
b) InceptionResNet V2 ，一种具有超过54M参数的572层深度神经网络。

本文训练的模型具有与先前工作相当的准确性，并且在迁移学习场景中表现良好。为了清楚起见，根据数据集/架构对来缩写特征提取器。下表列出了本文的特征提取器和学生模型的分类精度。
在本文的评估中使用的四个特征提取器，它们的分类功效和它们的学生模型的功效。

Tracker’s Training Datasets.

在追踪器从零开始训练其面部识别模型的场景下，假设他们将使用上述两个大型数据集(VGGFace2，WebFace)。在应用迁移学习的场景下，追踪器使用以下两个较小的数据集。
PubFig包含65个公众人物的5850幅训练图像和650幅测试图像。
FaceScrub包含互联网上530位公众人物的100000张照片。

为了执行迁移学习，跟踪器在特征提取器的末端添加一个softmax层，并使用上述数据集微调添加的层。

Cloaking Configuration.

在追踪器的模型中随机选择一个用户类别U，例如PubFig中的随机用户，作为寻求保护的用户。然后，描述的目标选择算法，从VGGFace2和WebFace中的一小组用户中选择一个目标类T。这里确保T不是追踪器模型中的用户类。
对于每个给定的U和T对，将U的每个图像x与来自T的图像xT配对，并计算x的斗篷。为此，以0.5的学习率运行Adam优化器1000次迭代。
在三种情况下评估了本文的伪装，U和追踪器模型共享相同的特征提取器，两者使用不同的特征提取器，以及追踪器训练模型从头开始而不使用任何预定义的特征提取器。

Evaluation Metrics.

在每个场景中，使用两个指标来评估斗篷性能:保护成功率，跟踪器模型对U的干净(未遮盖)图像的错误分类率，以及正常准确度，跟踪器模型对U旁边的用户的总体分类准确度。用符号:.

User/Tracker Sharing a Feature Extractor

从一个简单的例子开始，用户与跟踪器相同的特征提取器来生成斗篷。从PubFig或FaceScrub中随机选择一个标签作为Fawkes用户U。然后，使用上表中的四个特征提取器来计算U图像子集的“斗篷”。在追踪器方面，在同一个特征提取器(带有U的掩盖图像)上执行迁移学习，以建立识别U的模型。最后，评估追踪器模型是否可以正确识别它以前没有见过的U的其他干净图像。

结果表明，对于所有四个特征提取器，并且在扰动设置ρ = 0.007的情况下，伪装提供了完美的保护，即U总是被误分类为其他人。

为了探究ρ的影响，下图绘制了跟踪器在FaceScrub数据集上运行时保护成功率与ρ的关系。当ρ > 0.005时，Fawkes达到100%保护成功率。
DSSIM扰动预算增加时的保护性能。(User/Tracker: Web-Incept)

下图显示了原始图像和遮盖图像，表明遮盖不会在视觉上扭曲原始图像。即使当ρ = 0.007时，在全尺寸彩色图像上，肉眼也几乎检测不到扰动。对于校准，请注意，先前的工作声称更高的DSSIM值(高达0.2)是人眼察觉不到的。最后，本文的斗篷的平均L2范数是5.44，这小于以前的工作中使用的扰动。
原始图像和遮盖图像对(ρ = 0.007)。

Feature Space Deviation.

cloaks的目标是改变跟踪器模型中图像的特征空间表示。为了检查跟踪器模型中斗篷的效果，可视化了用户图像在斗篷前后的特征空间表示、他们选择的目标图像以及从跟踪器的数据集中随机选择的类。
本文使用主成分分析(PCA，一种常见的降维技术)将高维特征空间降低到2维。下图显示了来自PubFig类的遮盖图像的PCA结果，使用了在Web-Incept特征提取器上构造的遮盖。下图(a)显示了隐藏前原始图像和目标图像的特征空间位置，以及随机选择的类别。下图(b)示出了原始图像被掩盖后的更新的特征空间。很明显，伪装图像的特征空间表示与目标图像的特征空间表示非常一致，验证了本文对伪装的直觉。
遮蔽前后用户图像(从FaceScrub采样)的VGG2-Dense特征空间表示的2d PCA可视化。三角形是用户的图像，红叉是目标图像，灰点是来自另一个类的图像。

Impact of Label Density.

跟踪器模型中标签的数量会影响性能。当追踪器以更少的标签为目标时，特征空间“更稀疏”，并且模型继续将原始特征空间(连同遮盖的特征空间)与用户的标签相关联的机会更大。
使用PubFig和FaceScrub数据集(分别为65和530个标签)实证评估了较少标签对伪装成功的影响。随机抽取N个标签(N从2到10不等)来构建一个具有较少标签的模型。下图显示，对于PubFig，伪装成功率从2个标签的68%增加到超过6个标签的99%,证实了更高的标签密度提高了伪装效率。
随着tracker模型中标签数量的增加，保护性能也会提高。(User/Tracker: Web-Incept)

User/Tracker Using Different Feature Extractors

现在考虑当用户和跟踪者使用不同的特征提取器来执行他们的任务时的场景。虽然模型可转移性属性表明在它们各自的模型特征空间中存在显著的相似性(因为两者都被训练来识别人脸)，但是它们的差异仍然会降低隐藏的功效。在一个特征提取器中显著移动图像特征的斗篷可能在不同的特征提取器中产生小得多的移动。

根据经验考察了两个不同的特征提取器之间的特征表示的变化。从PubFig数据集中提取伪装图像(使用VGG2-Dense优化)、原始图像和目标图像，并在不同的特征提取器Web-Incept中计算它们的特征表示。使用二维PCA将结果可视化，如下图所示。从PCA可视化来看，隐身效果的降低是显而易见的。在追踪器的特征提取器中，斗篷只是将原始图像特征稍微向目标图像特征“移动”。

当用户和追踪者使用不同的特征提取器时，伪装的效果会更差。( User: VGG2-Dense, Tracker: Web-Incept）

Tracker Models Trained from Scratch

考虑一个强大的追踪器从头开始训练他们的模型的场景。选择用户U作为WebFace数据集中的标签。使用健壮的VGG2-Incept特征提取器在用户图像上生成斗篷。然后，追踪器使用WebFace数据集(但U的隐形图像)从头开始训练他们的模型。cloas再次达到了100%的成功率。标签和用户端特征生成器的其他组合都具有100%的保护成功率。

Robust Feature Extractors Boost Transferability.

为了解决cloaks可转移性的问题，利用最近的工作联系模型的鲁棒性和可转移性。Demontis等人]认为，输入扰动(使用本文技术点是斗篷)在模型之间转移的能力取决于用于创建它的特征提取器的“鲁棒性”。他们表明，更“稳健”的模型对输入的小扰动不太敏感。此外，在更稳健的模型上产生的扰动(或者说，斗篷)将呈现“普遍”特征，能够有效地欺骗其他模型。

根据这种直觉，建议通过增加用户特征提取器的鲁棒性来提高斗篷的可转移性。这是通过应用对抗性训练来实现的，对抗性训练根据扰动数据训练模型，使其对输入的类似小扰动不那么敏感。

具体来说，对于每个特征提取器，使用PGD攻击生成对抗性示例，这是一种广泛用于对抗性训练的方法。使用0.01的步长运行100步的PGD算法。为每个特征提取器训练额外的10个epochs。然后，这些更新的特征提取器用于在PubFig和FaceScrub数据集上生成用户cloaks。

下表中的结果表明，每个鲁棒的特征提取器产生的斗篷几乎可以完美地转移到跟踪器的模型中。当追踪者使用不同的特征提取器时，斗篷的保护成功率超过95%在下图中使用PCA可视化了它们的特征表示，并且看到，确实，在鲁棒提取器上生成的斗篷比在正常提取器上计算的斗篷传输得更好。

在鲁棒模型上生成的斗篷在特征提取器之间传递得更好。 (User: VGG2-Dense, Tracker: Web-Incept)

Image Cloaking in the Wild

通过将Fawkes应用于一位合著者的照片来评估图像隐藏在现实世界中的有效性。然后，故意将这些隐藏的照片的一部分泄露给执行面部识别的公共云服务，包括微软Azure Face，亚马逊Rekognition]和Face++。这些是面部识别领域的全球领导者，他们的服务被美国和亚洲的企业、警察、私人实体和政府所使用。

Experimental Setup

手动收集了一位合著者的82张高质量照片，这些照片具有各种各样的光照条件、姿势和面部表情。将图像分成两个子集，一组50幅图像用于“训练”，一组32幅图像用于“测试”(使用Web-Incept特征提取器的正常和健壮版本)为“训练”图像生成正常和健壮的斗篷。这使我们能够比较现实生活中正常的和健壮的用户特征提取器的相对有效性。

对于每种API服务，都尝试了三种场景:

Unprotected: 上传原始训练图像，在测试图像上测试模型的分类精度。
Normal Cloak: 上传由非鲁棒斗篷保护的训练图像，然后在测试图像上测试模型的分类精度。
Robust Cloak: 上传由鲁棒斗篷保护的训练图像，并在测试图像上测试模型的分类精度。

对于每个场景，使用在线服务API将训练图像上传到API数据库，然后使用未遮盖的测试图像查询API。

Real World Protection Performance

Microsoft Azure Face API.

微软Azure Face API是微软认知服务的一部分，据报道，包括Jet.com和优步在内的许多大公司都在使用它。该API提供人脸识别服务。一个客户端上传人脸的训练图像，微软训练一个模型来识别这些人脸。该API有一个“训练”端点，必须在模型识别人脸之前调用，这使我们相信微软使用迁移学习在用户提交的图像上训练一个模型。
正常的伪装方法对微软Azure Face API是100%有效的。本文的斗篷也提供了对Azure Face API的100%保护。详细的保护结果如下表所示。
伪装对基于云的人脸识别API(微软、亚马逊和Face++)非常有效。

Amazon Rekognition Face Verification.

Amazon Rekognition提供面部搜索服务，客户可以用它来检测、分析和比较面部。该API被各种大型企业使用，包括NFL、CBS和国家地理，以及佛罗里达州和俄勒冈州的执法机构和美国移民和海关执法局(ICE)。
值得注意的是，Amazon Rekognition没有专门训练神经网络来分类查询的图像。相反，它计算所有标签的查询图像和 ground truth图像之间的图像相似性分数。
如果相似度超过某个标签的阈值，Amazon会返回一个匹配。本文的伪装技术不是为了欺骗使用相似匹配的追踪者而设计的。然而，认为我们的伪装技术应该仍然有效，因为伪装在原始图像和伪装图像之间创建了特征空间分离，这应该导致它们之间的低相似性分数。
普通斗篷只能达到34%的保护成功率。然而，本文坚固的斗篷再次达到了100%的保护成功率。

Face++.

是中国开发的一个著名的人脸识别系统，它声称对各种攻击(例如，对抗性面具、化妆等)具有极强的鲁棒性。).由于其高性能和可感知的健壮性，Face++被金融服务提供商和其他对安全性敏感的客户广泛使用。值得注意的是，支付宝在处理支付之前使用Face++的服务来验证用户身份。联想还使用Face++服务为笔记本电脑用户执行基于面部的身份验证。
普通的隐身对Face++完全无效(0%保护成功率)。这表明他们的模型对输入扰动确实非常鲁棒。然而，像以前一样，本文的鲁棒性斗篷达到了100%的成功率。

总结。微软Azure Face API、亚马逊Rekognition和Face++代表了当今最受欢迎和部署最广泛的三种面部识别服务。福克斯隐形技术的成功表明本文的方法对生产系统是现实可行的。希望这些系统继续改进，但我们希望隐形技术也能随着时间的推移保持同步发展。

Trackers with Uncloaked Image Access

假设追踪器只能访问用户的隐藏图像，即，用户在将她的隐藏保护应用于她的图像内容以及将她的身份与朋友在线发布的图像解除关联方面是完美的。然而，在现实生活中，这可能是一个过于强烈的假设。用户会犯错误，未经授权的用户标记图像可能会被第三方(如报纸和网站)拍摄并在线发布。

考虑追踪器获取目标用户(例如Alice)的泄露的、未遮盖的图像的可能性。首先评估将这些图像添加到跟踪器的模型训练数据的影响。然后，考虑通过利用有限的在线sybil身份来减轻这种影响的可能机制。

Sybil群体指代那些被恶意操控进行协同攻击的虚假账户，即利用社交网络中少数节点控制多个虚假身份，从而利用这些身份控制或影响网络的大量正常节点的特殊行为群体。

Impact of Uncloaked Images

直观地，能够访问用户的一些标记的、未遮蔽的图像的跟踪器有更大的机会训练成功识别该用户的干净图像的模型M。用遮盖和未遮盖的用户图像训练模型意味着模型将观察到所有被指定为用户的更大范围的特征。

根据M如何被训练以及其他标签的存在/密度，它可以

a)将两个特征区域分类为用户；
b)将两个区域和它们之间的区域分类为用户；
c)忽略这些特征维度，并且使用连接用户图像的未遮盖和遮盖版本的一些替代特征来识别用户。

假设跟踪器无法在视觉上区分遮盖和未遮盖的图像。使用一个简单的测试来量化使用未遮盖图像进行训练的影响，该测试使用生成的遮盖以及在遮盖和未遮盖图像上训练的模型。下图显示了随着训练数据集中未遮盖图像的比例增加，FaceScrub数据集的保护成功率下降。当超过15%的用户图像未被遮盖时，保护成功率会降至39%以下。

当追踪器有更多的原始用户图像时，保护成功率降低。(User/Tracker: Web-Incept)

Sybil Accounts

除了伪装图像的泛洪，还探索了使用合作Sybil帐户来诱导模型错误分类。Sybil帐户是由用户控制的独立帐户，与原始帐户存在于同一个互联网社区(即脸书、Flickr)中。Sybils已经存在于众多的在线社区，并且经常被真实用户用来为不同的受众管理和划分内容。虽然有许多检测技术用于检测Sybil，但很难识别或删除单个Sybil帐户。
建议注重隐私的用户创建一个二重身份，最好不要在元数据或访问模式中与他们的主要身份相联系。它的内容可以从公共资源、朋友那里提取，甚至可以通过生成性对抗网络(GANs)人工生成。
Fawkes修改Sybil图像(以类似于遮盖的方式)来为用户的原始图像提供额外的保护。由于Sybil和用户图像驻留在同一个社区，希望追踪器将收集两者。虽然有强大的重新识别技术可以用来将Sybil与原始用户联系起来，但本文认为追踪器将其大规模应用于被追踪的用户群体是不切实际的。

Sybil Intuition

为了提高遮盖效果，用户修改Sybil图像，使它们与用户未遮盖的图像占据相同的特征空间。这些Sybil图像有助于混淆在Sybil图像和用户的未遮盖/遮盖图像上训练的模型，从而提高保护成功率。
下图显示了高层次的直觉。如果没有Sybil图像，在一小部分未遮盖(泄漏)图像上训练的模型会很容易将用户的测试图像与用户的真实标签相关联(如左侧所示)。因为泄漏的未遮蔽图像和Sybil图像在它们的特征空间表示中是接近的，但是被不同地标记(即“用户1”和“用户2”)，所以追踪器模型必须在特征空间中创建额外的决策边界(右图)。这些额外的决策边界降低了将用户与其原始特征空间相关联的可能性。

在2D特征空间中可视化的Sybil集成背后的直觉。如果没有Sybils，追踪器的模型将使用泄露的U的训练图像来学习U的真实特征空间(左)，从而对U的图像进行正确的分类。Sybil images S使模型的决策边界变得复杂，并导致对U的图像的错误分类，即使当U的泄露图像存在时(右)。
为了简单起见，探索用户能够获得一个Sybil身份来代表她执行特征空间混淆的基本情况。本文的技术对于多个Sybil变得更加有效，但是对于用单个Sybil身份标记的图像提供了更多的好处。

Creating Sybil images

Sybil图像是通过给一组候选图像添加一个特别设计的斗篷来创建的。假设Xc是来自用户获得的用于填充Sybil账户的候选集合的图像(即由GAN生成的图像)。为了创建最终的Sybil图像，为每个候选对象创建一个斗篷δ(Xc，x ),该斗篷最小化xC和用户的原始图像x之间的特征空间间隔。优化等同于将x设置为目标，并优化以创建xC ⊕δ(xC,x)。在从所有候选中选择了最终的Xc之后，一个准备好上传的Sybil图像Xs = Xc ⊕ δ(Xc，x)。

Efficacy of Sybil Images

当追踪器控制少量用户的未遮盖图像时，Sybil帐户可以提高用户的保护成功率。为了实验性地验证这一说法，从追踪器的数据集中选择一个标签作为Sybil帐户(由用户控制)，并将用户的图像分成两个不相交的集合:A包含由Fawkes处理的图像，其隐藏版本已在网上共享；B包含泄露给追踪者的原始图像。
对于Sybil的每个合成图像，随机选择集合a中用户的未遮盖图像。为a中的每个未遮盖图像选择一个Sybil图像。上文讨论的方法遮盖所有候选图像。产生的Sybil图像模拟未遮蔽用户图像的特征空间表示。从跟踪者的角度来看，他们可以访问集合A中隐藏的用户图像、集合B中未隐藏的图像以及Sybil图像。
下图比较了使用和不使用Sybil帐户的保护成功率(使用Web-Incept作为用户和跟踪者的特征提取器)。当攻击者拥有少量原始图像时，使用Sybil帐户可以显著提高保护成功率。当跟踪者拥有的原始图像比例小于31%时，保护成功率仍保持在87%以上。
当用户拥有Sybil帐户时，即使tracker拥有原始用户图像，保护成功率也很高。(User/Tracker: Web-Incept)

用户可以根据需要创建任意多的Sybil图像。当用户上传更多的Sybil图像时，保护成功率增加。当用户为每个未屏蔽的映像上传了2个Sybil映像时，保护成功率提高了5.5%。

Jointly Optimize Multiple Feature Extractors.

用户可能不知道跟踪器的确切特征提取器。给定在线可用的少量面部特征提取器，她可能知道跟踪者将使用几个候选特征提取器中的一个。因此，她可以联合优化Sybil cloaks，同时愚弄所有的候选特征提取器。
在一个简单的实验中测试了这一点，在四个特征提取器上联合优化Sybil斗篷。当追踪器使用四种中的一种时，评估斗篷的性能。下图显示了4个特征提取器的平均Sybil有效性。当跟踪者拥有的原始图像比例小于31%时，平均保护成功率保持在65%以上。
在四个特征提取器上联合优化的Sybils对于每个单独的提取器具有相当高的保护成功率。

Countermeasures

将探讨跟踪器可以用来降低图像隐藏效果的潜在对策。考虑并(在可能的情况下)从经验上验证从图像中移除斗篷的方法，以及检测图像上斗篷扰动存在的技术。

本文的实验对追踪器做了最强有力的假设:他们知道用户用来优化斗篷的精确特征提取器。在FaceScrub数据集上训练的跟踪器模型上测试我们的对策。斗篷是健壮VGG2-Dense特征提取器生成的。

Inherent Limits on Cloaking Success.

当一个人成为追踪者的主动目标时，隐身变得不那么有效。如果追踪者强烈希望训练一个能识别某个人的模型，他们可以采取隐形无法承受的激烈措施。例如，追踪者可以通过跟踪他们的身体来了解他们的运动或侵犯他们的隐私。

Cloak Disruption

在不知道数据集中的哪些图像被隐藏的情况下，跟踪器可以利用以下技术来破坏Fawkes的保护性能，1)变换图像或2)部署极其健壮的模型。针对这两种潜在的对策提出并评估了福克斯的表现。

Image Transformation.

减轻小图像扰动影响的一个简单技术是在将图像用于模型训练之前，转换训练数据集中的图像。这些变换包括图像放大、模糊或添加噪声。在线发布的图像在共享之前(即在上传过程中)经常被压缩，这可能会影响斗篷的功效。
发现这些转变都无法击败本文设置的斗篷。即使当数据增强被应用于掩盖的图像时，保护成功率仍然是100%。应用高斯模糊会使正常精度降低18%(随着内核大小的增加)，而斗篷保护成功率保持在98%以上(如下图)。
正常分类精度随着输入模糊的增加而降低，但是保护成功率仍然很高。

向图像中添加高斯噪声只会破坏正常的分类精度——随着噪声分布的标准偏差增加，斗篷保护成功率保持在100%以上(如下图)。
当输入中加入高斯噪声时，正常的分类精度会降低，但保护成功率仍然很高。

即使图像压缩也无法打败本文的斗篷。使用渐进式JPEG来压缩数据集中的图像，据说脸书和Twitter都使用这种方法。按照独立JPEG小组的标准，图像质量的范围是5到95(较低的值=较高的压缩率)。如下图所示，图像压缩降低了保护成功率，但更明显地降低了正常分类的准确性。

使用JPEG压缩，随着图像质量的提高，保护成功率和正常分类的准确性也会提高。

Robust Model.

鲁棒特征提取器上构造的斗篷可以很好地转移到跟踪器的不那么鲁棒的特征提取器。因此，追踪者可以采用的自然对策是将他们的模型训练得非常健壮。
尽管理论上证明了正常精度和稳健性之间的平衡，但未来的工作可能会找到一种方法来提高模型稳健性，同时最大限度地降低伴随的精度下降。
当追踪器的模型比用户的特征提取器更健壮时，评估隐形成功。用户有一个健壮的VGG2-Dense特征提取器(针对3个时期进行了对抗性训练)，而跟踪器有一个极其健壮的Web接收特征提取器(针对20个时期进行了对抗性训练)。当追踪器的模型如此强大时，用户的斗篷只能达到64%的保护成功率。
然而，如果用户对隐私极其敏感，她可以增加她的斗篷扰动的可见性，以实现更高的保护成功率。下图突出显示了保护成功与输入DSSIM电平之间的权衡。一旦DSSIM扰动> 0.01，斗篷的保护成功率增加到100%。
当用户的特征提取器远不如跟踪器的特征提取器健壮时，用户可以通过增加他们的DSSIM来提高他们的保护成功率。(User: VGG2-Dense, Tracker: Web-Incept)

Cloak Detection

现在提出的技术，追踪器可以用来检测其数据集中的隐形图像。还讨论了用户可以用来避免检测的缓解措施。

Existing Poison Attack Detection.

由于伪装是数据中毒的一种形式，检测中毒攻击的前期工作可能会有所帮助。所有先前的工作假设中毒仅影响一小部分训练图像，使得离群点检测有用。Fawkes毒害了整个模型类，通过删除正确的基线使离群点检测变得无用。

Anomaly Detection w/o Original Images.

首先考虑在跟踪器没有任何原始用户图像的情况下的异常检测技术。如果追踪器同时获得目标和伪装的用户图像，它们可以在模型特征空间中检测伪装的图像和目标图像之间的异常接近。
根据经验，隐藏类质心和目标类质心之间的L2特征空间距离比其他类的平均间隔小3个标准差。因此，可以检测到用户的隐藏图像。
然而，用户可以通过在斗篷优化期间保持斗篷图像和目标图像之间的分离来轻松克服这种检测。但是一旦遮盖的图像是目标图像的原始L2距离的20%，就终止遮盖优化。斗篷仍然实现了100%的保护成功率，但斗篷/目标的间隔仍然足够大，足以逃避之前的检测方法。

Anomaly Detection w/ Original Images.

当跟踪者可以访问原始训练图像时，可以使用聚类来查看是否有两个不同的特征聚类与用户的图像相关联(即，遮盖的和未遮盖的)。普通类应该只有一个要素聚类。
跟踪器可以在每个类的特征空间上运行2-means聚类，将具有两个不同质心的类标记为潜在隐藏的。当运行这个实验时，发现受保护用户类的两个质心之间的距离比正常类中的平均质心间距大3个标准差。这样，跟踪器可以使用原始图像来检测隐藏图像的存在。
为了降低这种方法的检测概率，用户可以选择不产生如此大的特征空间分离的目标类。但是选择了与它们的类别具有平均(而不是最大)距离的目标标签。用这种方法生成的斗篷仍然达到100%的保护成功率，但是两个簇形心之间的L2距离在平均值的1个标准偏差之内。
用户可以使用最大距离优化策略来规避这种异常检测策略。在实践中，对于具有中等数量标签(> 30)的任何跟踪器模型，利用平均或最大差异优化生成的隐身始终获得高的隐身成功率。实验结果表明，这两种方法在针对我们的本地模型和Face++ API的成功保护方面表现相同。

Discussion and Conclusion

提出了第一个建议，以保护个人不被未经授权和无法解释的面部识别系统识别。本文的方法应用小的、仔细计算的扰动来遮盖图像，使得它们在识别模型的特征表示空间中显著移动，同时避免可见的变化。本文的技术在广泛的假设下工作，并针对微软、亚马逊和Face++部署的广泛使用的最先进的模型提供100%的保护。
像大多数隐私增强工具和技术一样，Fawkes也可能被恶意的坏人利用。例如，犯罪分子可以利用Fawkes向依赖第三方面部识别系统(如Clearview.ai)的机构隐藏他们的身份。
认为Fawkes对那些使用公共图像建立未经授权的面部识别模型的人影响最大，对合法访问面部图像的机构(如联邦机构或执法机构)影响较小。将用户隐私和授权使用之间权衡的更详细的探索留给未来的工作。
使用斗篷保护内容面临着经得起未来考验的固有挑战，因为今天用来掩盖图像的任何技术都可能被未来某一天的变通办法所克服，这将使以前受保护的图像变得脆弱。虽然并不幻想这个提议的系统本身是经得起未来考验的，但相信这是开发以用户为中心的隐私工具以抵制未经授权的机器学习模型的重要而必要的第一步。希望这一领域的后续工作将带来长期的保护机制，防止为用户跟踪和分类而挖掘个人内容。
空间中显著移动，同时避免可见的变化。本文的技术在广泛的假设下工作，并针对微软、亚马逊和Face++部署的广泛使用的最先进的模型提供100%的保护。
像大多数隐私增强工具和技术一样，Fawkes也可能被恶意的坏人利用。例如，犯罪分子可以利用Fawkes向依赖第三方面部识别系统(如Clearview.ai)的机构隐藏他们的身份。
认为Fawkes对那些使用公共图像建立未经授权的面部识别模型的人影响最大，对合法访问面部图像的机构(如联邦机构或执法机构)影响较小。将用户隐私和授权使用之间权衡的更详细的探索留给未来的工作。
使用斗篷保护内容面临着经得起未来考验的固有挑战，因为今天用来掩盖图像的任何技术都可能被未来某一天的变通办法所克服，这将使以前受保护的图像变得脆弱。虽然并不幻想这个提议的系统本身是经得起未来考验的，但相信这是开发以用户为中心的隐私工具以抵制未经授权的机器学习模型的重要而必要的第一步。希望这一领域的后续工作将带来长期的保护机制，防止为用户跟踪和分类而挖掘个人内容。