KDD 2020最佳学生论文:基于匿名中间表征的任务独立、尊重隐私的数据众包框架——TIPRDC...

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近年来,各种信息泄露事件频繁发生,引发广泛社会关注。数据共享的时代背景下,如何在数据收集过程中加强隐私保护,防止个人信息被滥用,俨然已成为重要研究课题。在前段时间的KDD 2020上,荣获“最佳学生论文”的《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》提出了一个基于匿名中间表征的任务独立、尊重隐私的数据众包框架——TIPRDC,为实现数据共享与隐私保护提供了新的解决方案。本期AI Time PhD直播间,我们很荣幸地邀请到论文的一作,杜克大学电子和计算机工程系三年级博士李昂,为大家分享他们的这项研究工作!

李昂,目前就读于杜克大学,是电子和计算机工程系三年级博士,导师为陈怡然教授。李昂的主要研究方向是深度学习,移动和边缘计算,隐私保护等。

引言

众所周知,深度学习已在多个领域取得了前所未有的成功,这部分得益于各种大规模数据集,如ImageNet, MS-COCO, CelebA等。这些数据集通常都是通过众包的方式从用户收集的。然而无论是图像数据,还是文本数据,通过模型都可以推断出用户诸多的隐私信息,例如性别、年龄等。用户对原始数据中隐私信息的顾虑阻碍了众包数据集的生成和使用,进而也影响了深度学习的应用和模型的开发。因此,设计一个可提供隐私保护的数据众包框架是非常有必要且关键的。

如何在数据共享的情况下,保护用户个人隐私?一个传统的解决方法是表示学习,训练一个特征提取器,用户在本地通过学习好的特征提取器从原始数据中提取任务所需的特征,然后仅将提取出来的特征传输给服务提供方或数据收集器。不幸的是,攻击者仍然可以利用提取的特征训练对抗分类器来推断原始数据和隐私信息。

随着对抗学习的发展,后来又有研究人员提出了基于对抗训练的解决方案。其核心思想是加入对抗模型,在保护所指定隐私信息的同时,满足下游学习任务。但这类方法是为已知主要学习任务设计的,所提取的特征对于未知的学习任务却效果不佳,在可用性上存在很大的局限。

图1 隐私保护的演变

问题描述与框架设计

为了兼顾数据隐私保护和通用性,李昂等提出了TIPRDC。TIPRDC的目标有两个,一是提取出的特征尽可能少的包含所需要保护的隐私信息,满足安全性需求;二是在目标任务未知的情况下,所提取的中间特征尽可能多的保留原有的信息。

TIPRDC的框架如图2所示,用户可以在本地运行特征提取器,从原始数据中提取出中间表征,用户只需将这些中间表征传输给数据收集器,而无需传输原始数据。数据收集器使用接收到的中间表征来训练DNN模型,但是数据收集器和对手都无法准确地推断出任何受保护的隐私信息。

值得强调的是,训练特征提取器时,对于未来的学习任务或目标是未知的。因此,相较于传统对抗学习通过已知的目标学习任务来约束特征提取器,决定哪些信息需要隐藏,TIPRDC还需要其他的方法来实现这一约束。

图2 TIPRDC框架图

利用互信息(mutual information)的思想,重新定义TIPRDC的两个目标。通过理论推导,将两个目标转化为最优化问题,目标一最小化提取特征和隐私属性的互信息,目标二最大化原始数据和提取特征、隐私属性的联合分布之间的互信息。通过引入可控参数λ来表示效用-隐私预算,将两个目标结合起来,得到最终的目标函数。

图3 问题描述

根据上述目标函数,设计了如图4的用于训练特征提取器的混合学习方法,主要包括旨在实现目标一的隐私对抗训练(PAT)和旨在实现目标二的MaxMI算法。该方法的整体框架由三个模块构成,特征提取器、对抗分类器和互信息估计器。

图4 混合学习方法

实验

为评估TIPRDC的表现,在两个图像数据集(CelebA 和LFW)和一个文本数据集(DIAL)上进行了实验。为更加公平地评价框架的效果,实验共采用了Noisy、DP、 Encoder、 Hybrid四个比较基准,详见图5。

图5 实验设置

基于两个图像数据集,比较TIPRDC与四个基准模型在效用-隐私保护之间的权衡,实验结果如图6。从中可以发现,尽管TIPRDC不能始终在效用和隐私保护两个方面都超过基准,但是大多数实验设置下,TIPRDC达到了效用-隐私保护的最佳权衡。

图6 TIPRDC在图像数据集上的实验结果

混合学习过程中的一个重要步骤是确定效用-隐私预算λ,图7给出了不同任务上参数λ的影响。结果表明,隐私保护将随着λ的增加而增强,但对原有信息的保留会被减弱。进一步的,将特征提取器提取的特征作为输入,通过一个解码器重建图像。实验发现参数越小,可以重建含有更多信息的图像。

图7 效用-隐私预算λ的影响

现实场景中,数据收集器通常会在收集用户数据之前训练TIPRDC的特征提取器。因此,特征提取器的可迁移性决定了TIPRDC的可用性。通过跨数据集的方式对TIPRDC的可迁移性进行评估。具体来说,就是在CelebA或LFW中的一个数据集上训练特征提取器,再评估另一个数据集上的效用-隐私权衡。

图8的结果表明,使用一个数据集训练的特征提取器仍可以有效地防止另一个数据集上私有属性的泄露,并同时保持学习任务的分类准确性,即TIPRDC具有良好的可迁移性。

图8 TIPRDC的可迁移性评估

同样地,将TIPRDC应用到DIAL这一文本数据集上,得到了与CelebA或LFW类似的评估结果,如图9所示。随着λ的减小,学习任务的分类准确性将提高,但隐私保护会削弱。

图9 TIPRDC在文本数据集上的实验结果

结论

总结而言,KDD 2020最佳学生论文提出了一个基于匿名中间表征的任务独立、尊重隐私的数据众包框架——TIPRDC。该框架的目标是学习一个特征提取器,它可以隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,以供数据收集器完成未知的学习任务。

通过应用TIPRDC,用户可以在本地使用训练过的特征提取器从原始数据提取特征,并且仅将提取出的特征传递给数据收集器。在三个数据集上的评估表明,TIPRDC比现有其他解决方案可达到更好的效用-隐私权衡,并且在数据集之间具有良好的可迁移性,在现实场景中有巨大的应用空间。

论文原文:

TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations. Ang Li, Yixiao Duan, Huanrui Yang, Yiran Chen, Jianlei Yang

链接:

https://arxiv.org/abs/2005.11480

整理:何文莉

审稿:李昂

排版:田雨晴

本周直播预告:

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”下载本次报告ppt)

(直播回放:https://b23.tv/irlqA6)

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值