差分隐私
意义与定义
目标
尽可能延迟或避免过分精确的数据,暴露个人隐私。尽可能长时间的推迟这种必然性。
定义
-
差分隐私可以在确保的得出正确结论的前提上,加入“噪声”,从而隐藏个人信息。
-
参数ε是来调整隐私程度的。ε越小,隐私性越好。
应用
差分隐私数据库
特点
- 只回答聚合查询的结果
- 通过查询结果中加入噪声来满足差分隐私
- 例子:微软PINQ、Uber的Chorus
技术难点
- 如何用尽量少的噪声来达到 ϵ − \epsilon- ϵ−差分隐私
- 尤其是在查询需要连接多张数据库表的时候。
- 如何高效的计算查询的敏感度
- 如何将差分隐私模块整合到现有的数据库当中
前景展望
- 现有算法未能在隐私保护、查询准确性及计算率三者取得很好的平衡。
- 如:Uber的chorus在不少查询中误差可达100%以上
差分隐私机器学习
- 在机器学习算法中引入噪声,使得算法生成的模型能满足差分隐私。
- 例子:google的TensorFlow Privacy
- 用于神经网络训练
TensorFlow Privacy基本原理
- 神经网络通常是用随机梯度下降来训练的:
- 从一组随机的神经网络权重参数出发
- 拿到一组随机选取的元组来计算权重的梯度
- 用梯度来更新参数
- 重复2-3
- TensorFlow Privacy 对步骤2中的梯度加入噪声,保证训练过程满足差分隐私。
展望
- 不足
- 准确性有待提高
- 不能很好地处理复杂模型,如GAN
- 新方向
- 联邦学习
- 安全多方计算的结合
差分隐私的数据采集
- 从移动设备采集用户数据。
- 为满足差分隐私,让用户用类似于随机化回答的方法来提供数据
- 如:Chrome、iPhone、iPad、windows 10
技术难点
-
需要采集的数据比较复杂,无法用传统随机化解决。
-
如:用户输入的新单词。
展望
- 多方安全计算结合
差分隐私的数据合成
- 基本原理:
- 先对元数据进行建模,得到一个统计模型
- 用统计模型来合成出虚拟数据
- 如:美国普查局的一些数据产品。
- 技术难点:
- 找的合适的统计模型
- 在统计模型中加入噪声,满足差分隐私。
展望
- 目前只能处理关系型数据
- 对于非关系型数据的合成基本还在摸索阶段
- 如图、文本数据等。
涉及知识点
隐私保护系统
隐私保护基础知识
- 一个隐私保护包括各种参与者角色、匿名化操作、数据状态。
- 目标:可用性、隐私性
- X是原始数据,Y是匿名处理数据,X’是Y得解密数据。攻击者得任务就是得到X’
- 隐私性通常用泄漏量L来表示。 λ \lambda λ表示勒贝格测度(Lebesgue measure)
- L = λ ( X , Y ) L=\lambda(X,Y) L=λ(X,Y)
- 数据失真度 D = λ ( X , Y ) D=\lambda(X,Y) D=λ(X,Y)
- 有很多种方法可以计算D和L 如平均均方差 D = 1 n ∑ k = 1 n E [ ( x k − y k ) 2 ] D=\frac{1}{n}\displaystyle\sum_{k=1}^{n}E[(x_k-y_k)^2] D=n1k=1∑nE[(xk−yk)2]
- 其中E[·]表示X,Y联合分布的期望值。
- 如果用信息论中的互信息(mutual information)I[•]度量信息泄漏量L
隐私保护的数学模型
K-匿名模型
- 设T={t1,t2,t3…}是数据集D的一个数据表,A是表中的属性集。A={A1,A2,A3,A4…},C是A的一个子集。则用T[C]={t[c1],t[c2]…}表示T在属性集C上的投影. QI表示一个数据表中所有准标识符集合。 对一个数据表T进行k-匿名化定义,对T中的每个记录t∈T至少存在k-1个其他记录ti1,ti2,⋯,tik−1∈Tti1,ti2,⋯,tik−1∈Tk-1 ,并且对所有的C∈QI,满足t[C]=ti1[C]=ti2[C],⋯tik−1[C]t[C]=ti1[C]=ti2[C],⋯tik−1[C]。例如,在表1中,准标识符的集合为QI={job,age},表2是进行k-匿名化之后的数据(k=2),以确保在数据表中的每个准标识符至少有k个记录与之对应,从而降低重新识别某个特定记录的概率。
差分隐私模型
ε − \varepsilon- ε−差分隐私
-
所有的D1、D2为相邻数据集(即它们至多只有一条记录不同),一个给定的随机化函数G,对所有的S∈Ranger(G)(其表示随机化算法G的输出范围),满足
-
P r ∣ G ( D 1 ) ∈ S ∥ P r ∣ G ( D 2 ) ∈ S ≤ e ϵ \frac{Pr|G(D1)\in S\|}{Pr|G(D2)\in S}\le e^{\epsilon}