2019
摘要
现有的人脸图像去识别技术要么在photo-reality中insufficient(?)
,要么无法定性和定量地平衡隐私和可用性,也就是说,这些方法没法解释“它凭啥能保护隐私?”,“它能多保护隐私?”,以及“它还能更私密吗?”
本文框架包括四个阶段:面部属性估计、面向隐私度量的面部混淆、定向自然图像合成和对抗性扰动。
首个证明面部隐私是可度量的,可以因子分解,从而以逼真的方式进行操作,以满足不同的需求和应用场景。
1.引言
网络中广泛传播的视觉图像信息存在机密隐私泄露的风险
目前隐私保护技术主要是基于混淆的,比如通过使用模糊、像素化和掩蔽等传统方法来模糊图像中的人脸和数字等敏感信息。
但这样存在两个漏洞:①[43][38]已证明这样混淆后的数据依然可以训练识别②混淆后的数据对原本的识别系统又不可用了(然后破解这些数据的技术就可以垄断对这些数据的识别市场?)
隐私指标:k-anonymity [54], l-diverse [37], and t-closeness [24]
2.相关
面部关键点检测
人脸隐私保护主要两个方面:敏感内容检测和混淆方法[30]。
[53]提出了一种用于面部关键点检测的级联卷积网络,它可以利用整个面部的纹理上下文信息,并隐式地编码几何约束
(“隐式”的意思就是深度表达吧,把抽象的几何上的约束条件表示成计算机可以计算的数字?)
。
此外,还提出了一种深度多任务学习框架,将面部姿态检测与头部姿态估计[64]等相关任务的学习框架相结合。Dong等人。(2018)采用生成式对抗网络,将面部图像转换为样式聚合的图像,然后一起部署,训练面部地标检测器[8]。
Image Inpainting
通过面部替换实现的混淆方法
GAN
隐私保护数据挖掘
[1,6,56]奠定了一些隐私保护技术的理论基础
1998的[50]引入了k-anonymity属性衡量数据库匿名表的泄露风险,这样数据库中的每条记录至少与k-1条记录无法区分。仅限于防止属性泄露
2006的[37]引入了一个名为l-diversity的隐私属性,该属性要求受保护的属性在每个等价类中至少有l个表示良好的值。
2005的[42]在图像数据库中提出k-Same算法privacy-enabling(?)
。
2005的[13]为了制衡泄露风险(即图像混淆水平)和分类精度提出k-Same-Select算法
2018的[63]进一步设计了一个模糊(OBFUSCATE)函数,向现有样本添加随机噪声或创建新样本,试图在数据集中隐藏敏感信息,同时保持模型的准确性。
3
3.1.面部去识别技术的确立
几种用于人脸去识别的典型图像处理方法,包括模糊、像素化、掩蔽、基于深度卷积神经网络的风格转移[19](抽象绘画风格、肖像画风格和卡通风格[15])和基于生成对抗网络的图像绘制[61]
3.2.隐私指标
提供定性和定量的衡量,[57]有一个更全面的列表。
k-Anonymity
要求数据集中的每条记录与至少k - 1个关于准标识符(quasi-identifiers)的其他记录无法区分,准标识符指的是可以组合在一起来标识个人的属性,如眼镜、尖鼻子和椭圆形面部等。正常情况能盗取到真实数据的概率是1/k
但不能保护敏感信息不受同质性攻击[24]的攻击,比如有相同内容的敏感信息(类似于连连看吧,拿个信息试试,警告了就知道有这个信息)
l-Diversity
准标识符中有相同值的一组记录的等价类表示,即对于敏感属性,至少应该有l个“良好表示”的值。
“表示良好”值是确保这些等价类对敏感属性具有l个不同的值。
这样对手可以知道真实值是概率最高的那个
t-Closeness
应对知道敏感属性的全局分布的对手
更新k-Anonymity对应于敏感值的分布,要求任何等价类E中敏感值的分布SE必须接近它们在整个数据库中的分布S
随机
从更广泛的角度来看,对抗性扰动也可以看作是一种随机化的方法。
4
本文还是通过生成逼真赝品替换来解决
4.1 面部属性预测
GoogLeNet[55]
4.2 面部混淆
要实现具有隐私保护的面部去识别,每个面部图像的语义信息以及在整个数据库中的属性分布也得知道(看起来就是对一些bool的信息进行一个瞎改,保证不会因为这些信息就可以直接推测出对象的真实身份)
不过揭示身份的敏感信息仍然可以通过利用属性的全局分布来揭示[24]。
于是提出了隐私保护属性选择(PPAS)算法,这是一种选择和更新面部属性的方法,使任何属性E的分布SE接近其真实世界的分布S,并受d(S, SE) ≤ t约束。
与正常的t-接近度不同,进一步在属性选择过程中引入了一个随机扰动,以研究ε-微分隐私[9]。(?)
4.3 自然的和定向的去识别
训练GAN
人脸去识别任务可以归类为图像转换问题
4.4 对抗扰动
引入一个通用的通过迭代方法确定的扰动向量。对于每一次迭代i,我们应用DeepFool[41]来识别最小扰动,使ˆk对每个输入进行错误分类,并将超参数εi对应的通用扰动更新为总扰动v。结果表明,该算法适用于从训练数据集采样的一小部分图像,通用扰动在数据和网络结构可以很好地推广。
5.实验
5.2 数据预处理
(通过定位点抠出来需要的图像)
6.总结
解决的问题:
①能够生成具有假身份的真实图像(用于替换混淆方法)
②能够在定性和定量上平衡隐私和可用性
③回答了“它凭啥能保护隐私?”(通过提出的性能指标来说明能够保护隐私)
,“它能多保护隐私?”(通过性能指标的数值来衡量)
,以及“它还能更私密吗?”(下文吧)