摘要
联邦学习 (FL) 范式可以极大地解决公众对人脸识别中数据隐私日益增长的担忧。然而,由于任务的独特性,传统的 FL 方法表现不佳:在客户端之间广播类中心对于识别性能至关重要,但会导致隐私泄露。为了解决隐私-效用悖论,这项工作提出了 PrivacyFace,这是一个框架,通过在客户端之间交流辅助信息和隐私不可知信息,极大地改进了联合学习人脸识别。 PrivacyFace 主要由两个部分组成:首先,提出了一种实用的差分私有局部聚类 (DPLC) 机制,以从局部类中心提取经过净化的聚类。其次,共识意识识别损失随后会鼓励客户之间达成全球共识,从而导致更具辨别力的特征。所提议的框架在数学上被证明是差分私有的,引入了轻量级开销并产生了显着的性能提升(例如,对于 IJB-B 和 IJB-C 上的 TAR@FAR=1e-4,分别为 +9.63% 和 +10.26%) .对大规模数据集
一、介绍
人脸识别技术在公共安全、人身安全和便利性等正确环境下使用时具有很大的优势。然而,滥用该技术是一个问题,因为它涉及独特且不可撤销的生物识别数据。基于人脸识别和面部分析技术的快速商业应用激发了全球关于人工智能伦理的对话,并导致来自不同国家的各种参与者发布了治理倡议和指南。欧盟的通用数据保护条例 (GDPR)(Voigt & Von dem Bussche,2017 年)、加州消费者隐私法 (CCP) 和伊利诺伊州个人信息保护法 (IPI) 在任何新的开发过程中“通过设计和默认”实施数据保护框架。在 2021 年的全国“315 秀”上,中央电视台 (CCTV) 点名了多家知名品牌在未经用户明确同意的情况下非法采集人脸。作为研究人员,我们也有责任防止研究界广泛使用的公共数据集中包含的敏感信息泄露。因此,ImageNet (Deng et al, 2009) 中的人脸最近都被混淆了 (Yang et al, 2021),一个名为 MS-Celeb-1M (Guo et al, 2016) 的大型人脸数据集被从互联网上撤下。
随着社会对数据隐私的共识越来越多,人脸识别领域需要在保护隐私的同时对模型训练进行根本性的重新设计。一个潜在的解决方案是称为联合学习 (FL) 的范式(McMahan 等人,2017a)。如图 1a 所示,给定具有本地数据集 {D1,D2,···,DC} 的 C 客户端,FL 通过结合针对每个客户端的私有数据微调的本地模型来分散训练过程,从而防止隐私泄露。这些客户端的典型示例包括包含几个家庭成员的照片集的个人设备,或开放世界场景,例如成千上万人参观的旅游景点。
在大多数情况下,我们可以安全地假设很少有类会在两个或多个客户端中共存。
尽管从健康到 NLP 的各个领域都有大量基于 FL 的应用程序 (Kairouz et al, 2019),但在使用 FL 方案训练人脸识别模型方面进展甚微 (Aggarwal et al, 2021; Bai et al, 2021)。与其他任务不同,人脸识别模型的最后一个分类器的参数对于识别性能至关重要,但与隐私密切相关。
这些参数可以被视为身份的平均嵌入,正如大量研究所研究的那样,可以从那里窥探个人隐私(Kumar Jindal 等人,2018 年;Boddeti,2018 年;Mai 等人,2020 年;Dusmanu 等人, 2021 年)。这阻止了 FL 方法在客户端和中央服务器之间广播整个模型,从而导致本地更新聚合的冲突。
如图 1a 的全局特征分布所示,两个客户端都试图在归一化特征空间的同一区域(箭头所指)中展开它们自己的类。因此,考虑到来自多个客户端的次优解决方案,训练损失可能会波动以达成共识。另一方面,具有足够负类的大批量对于学习高级人脸识别算法的判别嵌入空间是必要的。在传统的 FL 更新期间,每个类只知道本地负类,而来自其他客户端的负类是不可触及的。
这进一步限制了 FL 方法在人脸识别中的性能。
隐私-效用悖论促使我们引入 PrivacyFace,这是一个框架,通过在全球范围内广播本地班级的消毒信息来改进联合学习人脸识别。在该框架中,一种称为差分私有本地集群 (DPLC) 的新算法首先生成与隐私无关的类中心集群,而无论攻击者的先验知识、信息源和其他持有情况如何,都无法了解集群中的任何特定个体。回想一下,差分隐私方案的隐私成本与 l2 敏感度成正比,而与查询数成反比。我们的 DPLC 通过限制簇大小以及覆盖足够的类中心来达到较低的 l2 灵敏度。此外,DPLC 中通信所需的中心数量与训练数据中的类数无关。这些特性共同使 DPLC 的隐私成本比单纯的替代方案小得多,后者通过高斯噪声分别对每个类中心进行消毒。在我们的实验中,DPLC 的隐私成本仅为朴素方法的 1.7e-7。这令人信服地揭示了我们方法的高安全级别。
PrivacyFace 的第二部分是共识感知人脸识别损失。遵循联合平均 (FedAvg)(McMahan 等人,2017a)的原则,服务器迭代地从客户端收集特征提取器和与隐私无关的集群,平均特征提取器的参数并将它们分发给客户端。因此,consus-aware loss 通知每个客户端在局部优化期间不要将样本嵌入特征空间的不适当区域(由 DP 标记的差异私有集群),如图 1b 所示。这个过程帮助每个客户训练更具辨别力的特征,并使所有共识保持一致。与传统方法相比,我们的 PrivacyFace 在 IJB-B 和 IJBC 上分别将 TAR@FAR=1e-4 的性能提高了 +9.63% 和 +10.26%,而隐私成本仅为个位数。此外,额外的计算成本和通信成本可以忽略不计(例如,广播的额外集群仅占用 16K 存储,而骨干网已经占用 212M)。总之,PrivacyFace 是一种有效的算法,它在性能上大大提高了传统的联邦学习人脸识别,同时需要很少的隐私成本以及轻量级的计算/通信开销。
二、初期
1.深度人脸识别
大多数早期的深度人脸识别工作依赖于基于度量学习的损失,包括对比损失(Chopra et al, 2005),三元损失(Schroff et al, 2015)和n对损失(Sohn, 2016)。
这些方法在大规模数据集的训练中通常效率不高。一个可能的原因是它们在每次迭代时的嵌入空间只由一个正样本和有限的负样本构造。因此,研究主体(Ranjan等,2017;刘等,2017;王等,2018;邓等,2019;Xu等,2021年;孟等人,2021a;c)专注于设计更有效的基于分类的损失,并在许多基准测试中取得了领先的性能。
假设给我们一个训练数据集D,其中N个人脸样本{xi, yi}Ni=1,包含N个身份,其中每个xi是一个人脸图像,yi∈{1,···,N}表示其相关的类标签。考虑生成嵌入fi = φ(xi)的特征提取器φ和权重W = [w1,···,wn]的分类器层,一系列的人脸识别损失可以总结为
2.微分隐私
差别隐私(DP) (Dwork等人,2006)是一个完善的框架,在此框架下,无论攻击者的先验知识、信息源和其他持有信息,在此过程中几乎无法了解到任何特定个人的信息(Feldman等人,2017;Nissim等,2016;Stemmer & Kaplan, 2018)。我们在下面陈述了相关的定义和理论(Dwork & Roth, 2014)。
三、隐私人脸
本节详细介绍PrivacyFace框架,如图2所示。其核心是一种新的聚类算法,该算法提取了关于局部类分布的不敏感但有信息量的知识(图2a)。在中央服务器广播本地dp保证输出后(图2b),每个客户端在考虑本地数据和隐私无关集群的共识感知目标上进行优化,以学习人脸识别的鉴别嵌入空间(图2c)。
1.差异私有本地集群
我们的目标是通过在客户端之间传递辅助信息和隐私无关信息来提高联合学习人脸识别的性能。为了从每个客户端提取有用的信息并解决隐私-效用悖论,我们提出了一种名为差分私有局部聚类(差分私有局部聚类,DPLC)的专门算法,该算法具有严格的理论保证。
总结
通过精心设计的DPLC算法和一种新颖的共识感知识别损失,我们通过在客户端之间通信辅助嵌入中心来提高人脸识别的联邦学习性能,同时实现严格的差异隐私。该框架以轻量级通信/计算开销高效运行。此外,PrivacyFace可以潜在地扩展到其他度量学习任务,如重新识别和图像检索。未来可以在结合FL优化设计更精确的聚类算法上投入更多的精力,例如对混淆区域进行自适应查询,而不是使用暴力抽样。