(翻译)相关差分隐私:将信息隐藏在 non-IID数据集中(二)

第三部分 问题陈述

在这部分,我们将用一个简单的例子在说明相关信息的问题,并且将问题公式化。
A.一个例子:数据集中的相关记录
假设我们想发布带有n条记录的数据集D。简单起见,我们假设数据集D只有一个属性,属性值可以取A,B,C。数据集D可以非常容易的转变为频率数据集x,其中属性列存储了属性值和该属性值的计数。隐私保护的目标是隐藏x中的计数信息。
为了保持差分隐私,随机化机制将会向统计数据里添加独立的噪音。因为删除一条记录至多会影响统计数据+-1,所以计数的查询敏感度为1;独立噪声根据拉普拉斯分布取得。
这种处理方法对于记录之间是独立的情况是很好用的。但是,如果一些记录之间是相互关联的话,传统的方法可能就低估了敏感数据泄露的可能性。例如,用下面的频率数据集x代表一份医学报告,属性表示地址,计数表示患流感的人数。假设一个名为Alice的人和她的9个直接家庭成员生活在同一个地方B。当Alice感染流感时,整个家庭都会被感染。在这种情况下,将Alice的记录从地址B中删除将会影响其他的9条记录,地址B 的统计数量将会变成90(Alice感染流感),或者保持100(Alice没有感染流感)。假设添加噪音之后的查询结果为99(添加了噪音),这意味着Alice很有可能没有感染流感,因为结果很接近100(而不是90)。具体来说,99的查询结果表示Alice患有流感的可能性比不患有流感的可能性低e^(10*隐私预算)。相比于独立数据记录的隐私保护界限e^隐私预算,相关数据集有10倍的可能导致隐私泄露。在这个例子中,传统的差分隐私没有考虑到现实情况中的数据关联性。

我们将这个问题定义为相关差分隐私问题。为了解决这个问题,一个可能的解决方案基于记录之间的关联关系设计出一个行的敏感度准则。一个很自然的想法是用全局敏感度乘以相关的记录数量。在上面提到的例子中,当删除Alice时会影响最多10条记录,敏感度被重新为1*10,并且噪声将会取自服从Laplace(10/隐私预算)的分布。
这种自然的敏感度准则可以被拓展到不同场景中去。例如,若表中的A,B,C是线性相关的,比如A+B=C,在A中删除一条记录将会使A中的计数减1,C中的计数也会减1,敏感度为2。如果是A*B=C,删除一个A中的数据,将会最多使C的计数减少100,所以敏感度=max(count(A),count(B))。很明显在某些情况下,敏感度会非常高,造成大量的噪声冗余。这种自然的方式对于相关差分隐私来说并不是最优的。关键问题是如何定义一个合适的敏感度。
总的来说,传统的差分隐私方法的缺点是忽视了数据记录之间的联系,这意味着查询结果将会泄露比预想的更多的信息。如果我们仅仅是通过把隐私算放大很多倍来解决这个问题的话,查询结果又包含了大量的冗余噪音,损害了数据的实用性。所以一个巧妙的解决相关差分隐私的方法是迫切需要的。
B.相关差分隐私问题
在处理相关差分隐私问题之前,我们定义了相关概念术语。若一条记录属于D的记录ri与其他的k-1条记录都有关联,我们把这组(数量为k)记录称为相关记录。数据集D被称为相关数据集。独立同分布数据集是相关数据集的一个特例(k=1)。k值根据不同的数据库会有所不同,与查询无关。
在一个包含了d个属性的相关数据集D中,将D映射为X域下的直方图x,这样比较方便。每一个格(bin)代表了属性的组合,格的数量被计作N。直方图的频率是格的统计的一部分(一部分格的统计?),被表示为x(bi),(i<=N)。在直方图的定义中,我们认为x是X下的一个分布,x中的每一个格都是一个正数。例如,上图实际上是一个具有A,B,C三个格的直方图,频率分别为x(A)=0.0066,x(B)=0.3311,x(C)=0.6623。正式来说,我们将直方图定义如下:
定义(直方图):一个数据集D可以表示为直方图x(x属于X):x属于N^|X|,若两个数据集D,D'他们对应的直方图x,x'满足||x-x'|| 1<=1,则称D,D'为相邻数据集。
另一个重要的概念是相关等级。比较自然地机制是删除一个数据记录肯定会影响到相关数据集中的其他记录。但是,很多记录知识部分相关,删除一条记录对其他记录可能有不同的影响。我们把这种影响定义为记录的相关等级
定义(相关等级):假设两条记录ri与rj是互相关联的。这意味着他们之间的关系被表示为相关等级δij属于[-1,1],并且||δ||ij>=δ0,δ0是相关敏感等级的界限。
推论1:若δij<0,ri和rj是负相关;反之则是正相关;δ=0说明他们之间没有联系。若|δij|=1,则称ri和rj完全相关。
相关等级代表了一条记录对另一条记录的影响。δij的绝对值越小,他们之间的联系就越小,意味着删除ri只会有很小的可能会影响到rj,反之同理。然而,我们需要注意在现实生活的应用中,很少有记录是完全相关的,这个发现对我们提出的方法很有用。

从相关数据分析的角度来看,将记录之间的关系表示出来,并维护一个相关等级矩阵是可行的。
这里的矩阵有四个特质:1)它是对称矩阵,意味着数据之间的关联与顺序无关;2)对角线上的元素为1;3)界限δ0被定义用来过滤弱相关等级,在矩阵中,若||δ||ij<δ0,则把δij设为0;4)只有一部分记录之间是相互关联的。
在现实生活中,对于攻击者来说,获取相关敏感矩阵是非常困难的。但是,既然差分隐私旨在理论上保证隐私的严格保护,即假设攻击者获取了整个的相关矩阵,差分隐私保护价值应该仍然可以保护个人隐私。
C.研究问题和挑战
对于相关数据集的隐私保护是一个难题,因为特殊的数据集有特殊的结构和不同的隐私保护需求。将差分隐私引入到相关数据集中,带来了三个主要的挑战。
1.如何在数据集中定义识别相关记录?
通常来说识别相关记录和相关等级δ是很难的。不同种类的数据集可能对数据有不同的处理方式。更重要的是,几个数据在一起可能相互混合产生指数数量级的关系,这使得相关分析非常复杂。在第四部分的A节中,我们将会列举出可能的相关记录分析方法。
2.怎样计算相关记录的敏感等级?
传统的全局敏感等级由于添加了大量的噪声可能对相关数据集是不合适的,全局敏感度引入了10倍的噪音。在第四部分的B节中,我们定义了相关敏感等级,在保持关系的同时降低噪音。
3.如何重新设计差分隐机制
即使相关敏感性可以显著的降低噪音,一个新的满足差分隐私的同时也能保证数据的实用性的机制是迫切需要的。在第五部分中,我们提出了一个基于迭代的数据发布机制来处理这个问题。

第四部分 相关数据集分析

这部分提出了相关敏感度的定义。具体来说,我们定义了相关记录,并且使用相关等级来完善相关敏感性,以此保证满足特定预算的差分隐私。
A.相关分析
相关分析用来生成一个数据集的相关等级矩阵。依赖于数据发布者的背景知识或者数据集特有的特点,典型的方法可以归为两类。
第一类相关分析假定攻击者实现获取了背景知识。相关等级矩阵作为背景知识是提前定义好的。那前面的例子来说,攻击者可以通过A+B=C或者A+B=C来推断出敏感等级矩阵。在相关数据集中,定义一个完全相关的记录关系是比较容易的。但是对于若链接来说,则需要更深入的领域知识或者由专家来决定。
另一种关联数据分析可以不考虑任何直接的背景知识。相关等级将会以各种各样的形式来定义。
1)属性分析:这种方法使用以某些特定属性来挖掘记录之间的关系。当这些属性值相同或者相似时,包含这些属性的记录就被认为是相关的。例如,在调查数据集中,地址这一属性可以用来决定家庭成员。在网络流量数据集中,IP地址这一属性可以帮助识别来自同一主机的流量。更重要的是,属性值得相似性可以被用来衡量相关等级;高相似度意味着强关联性。这种方法可以高效准确的识别相关记录。然而,不存在这种属性时,这种方法就行不通了。
2)时间间隔分析:这种方法提前定义了时间间隔的长度以此识别数据流中的关系。落在同一时间间隔的记录被认为是相关记录。例如,Cao等人将一定时间间隔内的行为聚集起来,并且对这些行为模型化。这种方法可以识别出多记录混合在一起的情况,但是这种方法只适用于时间相关的数据集。
3)皮尔森相关分析:若数据集中不含有合适的属性或者时间信息来确定相关信息的话,皮尔僧相关分析则是一种高效的发现相关记录的方法。这种方法将相关数据集中的部分或者全部属性抽离出来,然后计算记录之间的皮尔森相关系数
通过定义等级界限δ0,相关等级矩阵可以通过相关系数来产生。其他的相关性以及距离测量手段也同样可以使用。例如,Song等人利用KL散度来测量记录之间的相关等级。然而,这种方法只能确定记录之间的线性关系。
也有一些其他的方法来进行相关分析。但是不论采用何种方式,目的都是定义一个相关等级矩阵,这个矩阵在相关差分隐私中起到了非常重要的作用。
B.相关敏感度
在提出相关敏感度之前,我们首先分析来自全局敏感度的冗余噪音。不论从记录还是查询来说,传统的全剧敏感度都会导致冗余噪音。在初期,传统的方法假定记录之间是完全相关的,因此仅仅是将全局敏感度乘以相关的记录数量,这导致了大量的噪音。对于一个查询来说,传统的方法用了一个全剧敏感度而没有考虑不同查询的不同特点。实际上,只有一部分的记录是相互关联的,我们这需要讨论这些关联就可以了。因此敏感度应该应该根据相关记录和查询来适应。
基于此,我们最先引入了与相关等级有关的记录敏感性,然后提出了与查询相关的相关等级。
定义(记录敏感性):对于一个敏感矩阵 和一个查询Q老说,记录ri的敏感度为

其中δij属于敏感矩阵。
记录敏感性衡量了数据集D中的所有记录当记录ri被删除时所受到的影响。敏感矩阵中的δij估计了记录ri和rj之间的相关等级。这是想法结合了相关记录和相关等级。如果D里面的数据集相互独立,CSi等于全局敏感度,即
其中q是查询Q所对应的的所有记录。
相关等级与Q相关。他将所有响应Q的记录列出来,并且挑选了一个最大的记录敏感度作为相关敏感性。当查询只涉及独立的数据或者弱相关记录,相关敏感性将不会带来额外的噪音。
在定义了Q的相关敏感性后,添加了噪音的查询答案最终由以下公式计算:
我们可以发现相关敏感性比全局敏感性小很多——全局敏感性认为所有数据之间都是完全相关的,并忽略了相关等级。
引理1:对于一个查询Q,相关敏感性小于或等于全局敏感性GS。
证明略(好理解)
相关敏感性CS可被用作各种各样的数据发布机制中。如果数据集之间的记录是相互独立的,那么相关敏感性CS将会和全局敏感性GS相等,对于相关数据集,相关敏感性将会比全局敏感性引入更少的噪音。



  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值