《通过优化隐码实现人脸数据集匿名化且保留面部属性信息》【人脸匿名化】(CVPR2023)
目录
一、研究意义:
在保护隐私的同时,保留(能创建和共享)高质量人脸数据集供计算机视觉和机器学习等研究领域使用,对于一些重要人物如安全、医疗保健和创意应用有益。
两个方面:
- 一些基于模糊化像素化处理的匿名化技术,会同时使得人脸姿态、表情、肤色等信息无法分辨,而许多计算机视觉任务需要学习这些信息;且其他深度学习模型能逆向这些操作,使得结果图像re-identifiable;
- 基于GANs的匿名化工作虽然能保护隐私的同时生成高质量的图像,但生成的图像往往不自然、无法保留面部属性(或没有定量衡量过这一点);且生成的匿名化图像保留了其他可识别身份的个体特征如服装、背景(注意有没有解决这一点)。
PS:为什么要保留面部属性信息?
保留面部属性对下游任务有好处,下游任务包括:训练机器学习模型(需要高质量的人脸图像)、表情识别、心理健康影响分析等。
二、贡献:
- 第一个显示提出这个任务的工作:人脸匿名化同时保留面部属性
解决了过去匿名化的工作的两个缺点:1)不需要重练训练一个额外的网络;2)无法保留面部属性信息(有的GANs工作可能做到了但是没有定量评估); - 提出一种task-agnostic(任务无关)的匿名化方法,通过直接优化一个强大的预训练GAN的隐码,保证修改后的身份和原始身份远离(identity obfuscation loss)且保留面部属性(deep feature-matching loss【其他文章的】),从而生成高分辨率的-新身份的-保留原始面部属性的人脸图像。
- Celeba-HQ和LFW数据集上实验验证
三、相关工作
基于面部混淆的匿名化技术
如模糊化、遮蔽、像素化、k-same等,存在的问题:无法被需要人脸检测、追踪、面部属性的任务使用,因此本文利用stylegan2获得逼真的、能被检测的、且保留原始面部属性的人脸;
基于GANs的匿名化技术
存在的问题:
- 生成的人脸不够清晰 -> 利用强大的StyleGAN2避免模糊的问题;
- conditional GANs,重点讲了CIAGAN,缺点:1)生成人脸不够自然(有点扯);2)不能保证保留面部属性,本文通过属性保留损失和通过逆向原始人脸得到的隐码的先验信息,保证面部属性的保留;3)CIAGAN是交换身份技术,同样存在隐私问题,本文生成的人脸身份属性是随机的,现实中不存在;
- 最近的工作IdentityDP,没有相关源码无法定量比较(居然可以这么写),基于定性结果,尽管保留了面部属性,但生成图像的身份仍能被人眼识别(没懂啥意思)。
四、方法
- 先利用StyleGAN随机生成一个比真实人脸数据集WR更大的假脸数据集WF;
- 输入FaRL基于ViT的图像编码器,在特征空间中找到,对应每张真实人脸欧氏距离最近的假脸,得到图像及隐码对:
- wF中:0-2(控制头的姿态等粗粒度特征)、8-17(控制颜色分布、背景信息等细粒度特征)层保持和wR一致,3-7层替换为一个段可训练的向量(这里没看懂,怎么替换,为什么不直接用wR替换),从而得到wA,生成匿名化后人脸XA;
- 约束XA与XR身份远离而属性一致:
(1)约束身份:
m与1越接近,XA与XR身份越相似;m与0越接近,越不相似;
(2)约束面部属性一致:
五、实验
实验设置
数据集:CelebA-HQ、LFW;对比方法:CIAGAN、DeepPrivacy;
评价指标:
- 匿名化及图像质量
(1)重识别率re-identification rate:所有匿名化人脸图像中身份仍能识别的图像数量占比,人脸识别网络预训练的FaceNet,理想情况0%;
(2)检测率detection rate:所有匿名化人脸中机器学习模型能检测到人脸的图像数量占比,人脸检测模型MTCNN,理想情况100%;
(3)图像质量:FID; - 属性保持
在匿名化训练集上训练一个分类器,在真实人脸测实际上测试分类准确率。
多标签分类模型:MobileNetV2,处理类不平衡:focal loss(焦点损失)。
训练/测试集划分:CelebA数据集官方划分,LFW随机划分8:2。
与SOTA对比
- 人脸质量和匿名化(从表上看并不怎么好)
- 属性保持
(1)CelebA-HQ数据集官方提供了40种人脸属性标签
在匿名化数据训练集上训练分类器(MobileNetV2),在真实人脸测试集上测试准确率。Original指在真实人脸训练集上训练、在测试集上测试的准确率。
(2)LFW官方没有提供属性标签
在CelebA-HQ上预训练了两个分类器,分别可以预测40种和5种属性;
在原始LFW数据集上,用上述两个预训练的分类器预测伪标签作为ground-truth,然后进行(1)中类似实验。
伪标签的可靠性验证:
实验结果:
CelebA-HQ:
LFW(不怎么有竞争力,作者argue说内脸的属性保持更好):
3. 定性结果
CIAGAN的结果有这么差吗。。。
消融实验
关于超参数m的,m越大,匿名化人脸和原始人脸身份越相似,re-identification结果越差,面部属性保留得更好。
六、总结
主要贡献:显示提出保留匿名化人脸数据集的原始人脸属性这一任务,并定量衡量了属性保留的程度。
学到了什么:
- 研究意义:匿名化和面部属性保留;
- 一些预训练模型的用途:比如e4e可以获得真实人脸在stylegan中的latent code;FaRL:提取图像语义特征;
- 定量衡量面部属性保留程度的方法。
个人觉得这篇文章写得有点草率,很多槽点,有些地方感觉在水字数,有个图特别长,感觉在占篇幅,贡献不明显、实验也不是很充分,参考意见不大。