差分隐私基础入门总结

差分隐私基础入门总结

1、什么是隐私?传统的隐私保护手段有哪些?为什么需要差分隐私?

在大数据的时代我们越来越离不开数据,利用数据可以给我们提供更好更方便迅捷的服务,比如依据位置自动为你推送附近的餐厅或者咖啡,依据你的浏览偏好为你展示你感兴趣的内容,依据你的就诊记录医生可以对你的身体情况有了一个初步的判断。但是这些数据一定程度上也正在给你带来严重的隐私问题,一些木马可以依据你的浏览偏好有意地推送那些你更容易点击的链接从而给你造成严重的损失。

因此我们需要对数据进行一定的加工处理,保证它可用的同时又不会造成严重的隐私泄露问题。也就是说,我们需要保证我们的数据能够提供合适的信息为生活服务带来便利,但又不会泄露个人的敏感信息招致自身利益受损。

最早出现了两个隐私度量作为隐私保护的衡量标准:

披露风险 :

披露风险[3]定义为,攻击者根据背景知识,可能从发布的数据集中,所披露隐私的概率。即通过攻击者披露隐私的多少,来侧面反映隐私保护的效果。若发布者最终发布的数据集中,所有敏感数据的披露风险均小于阈值 α \alpha α (0≤ α \alpha α ≤1),则称该数据集的披露风险为 α \alpha α。现有的隐私度量,可以统一使用披露风险来描述。

由此引申出 l − d i v e r s i t y l-diversity ldiversity

信息缺损 :

信息缺损表示为,经过隐私保护技术处理后数据的信息丢失,是针对发布数据集质量的一种度量。最小信息缺损原则,通过比较原始数据和匿名数据的相似度来衡量隐私保护的效果。信息缺损越小,说明发布数据集的有效性越高。但是,这种度量原则需要考虑准标志符巾每个属性的每个取值的泛化和隐匿带来的信息缺损,计算代价较高,适用于对单个属性进行度量。

ILoss[7]度量标准,要求检查每条记录准标志符中每个属性的取值泛化带来的信息缺损,进而计算出每条记录泛化后的信息缺损,再根据每条记录的信息缺损,计算整个发布数据集的信息缺损。

因此出现了如下几种数据隐私发布手段:

1、基于数据失真

据失真技术,那通过扰动原始数据来实现隐私保护。数据扰动的基本思想是隐藏真实的原始数据,只呈现出数据的统计学特征,具体地讲,经过扰动之后,攻击者通过发布的失真数据,不能重构出真实的原始数据,即不能发现真实的原始数据。并且.失真后的数据仍然保持某些性质不变,即利用失真数据得出的某些信息等同于从原始数据上得出的信息。

数据交换足一种基本的扰动技术,足在记录之间交换数据的值,保留某些统计学特征而不保留真实数值。另外一种技术是随机化,是对原始数据加入随机噪声从而隐藏真实数值。值得注意的是,任意对数据进行随机化,并不能保证数据和隐私的安全竭],因为利用概率模型进行分析,可能揭露随机化过程中的众多性质。

2、基于数据加密

基于数据加密的隐私保护技术,多用于分布式应用中,是通过密码机制实现他方对原始数据的不可见性以及数据的无损失性,以实现隐私保护。

如安全多方计算

3、基于限制发布

所谓限制发布,是指不发布或者发布敏感度较低的数据,即有选择地发布原始数据,以实现隐私保护。限制发布在隐私披露风险与数据敏感度之间进行折中,即保证隐私披露风险在一定阚值范围之内,有选择地发布敏感数据。当前此类技术的研究热点,集中于数据匿名化。数据匿名化一般采用两种基本操作,一种是抑制,即不发布某些数据项;另一种是泛化,即对数据进行更概括、抽象的描述。数据匿名化的研究重点,主要是设计更好的匿名化原购,使发布数据既能很好地保护隐私,又具有较大的使用价值。同时,针对特定的匿名化原则,设计更为高效的匿名化算法。

如K-匿名技术

但是以上的几种隐私保护手段都具有相当大的局限性:

第一:对攻击者的能力具有限制

第二:没有严格的数学框架体系证明

第三:数据可用性和隐私保护程度关系难以平衡

因此2006年,D.Work提出了差分隐私。差分隐私保护采用添加噪声的技术使敏感数据失真,是基于数据失真的隐私保护技术。虽然其基于数据失真技术,但所需加入韵噪声量与数据集的大小无关。因此,即使对于大型数据集,也只需添加极少量的噪声,就可以达到高级别的隐私保护。此外,差分隐私保护定义了一个极为严格的攻击模型[2“,并对隐私披露风险给出了定量化的表示和证明。差分隐私保护可以保证,在数据集中删除或添加一条数据,不会影响到查询结果。因此,即使在最坏情况下,攻击者已知除某条记录之外的所有敏感数据,仍然可以保证不泄露这条记录的敏感信息。差分隐私保护极大地保证了数据的可用性,同时大大降低了隐私泄露的风险

2、差分隐私是什么?涉及到哪些实体类型?有哪些差分隐私类型

差分隐私(Differential Privacy)的差分体现于何处呢?究竟何又为差分呢?

我们试想一下这样的一个例子:

我们有一个记录了某个社区的艾滋病病人的数据库,为了保证这些人的个人信息,我们对数据库的查询作出了限定,即每次的查询都必须要是统计查询且得到的信息的条目数量必须大于N,保证个人的信息不会被直接查询到。

但是在这种情况下我们可以通过差分攻击的手段来得到某一个人的具体信息:

  • Step1:查询整个数据库中的艾滋病病人的数量 N 1 N_1 N1
  • Step2:查询整个数据库中名字不叫"Alex"的艾滋病病人的数量 N 2 N_2 N2
  • Step3:在不考虑重名的情况下,若 N 2 N_2 N2 N 1 N_1 N1相差为1则意味着Alex没有艾滋病

由此通过这种差分攻击的手段我们可以查询到某个人的具体信息,造成了隐私泄露问题

(img-fFUuax0e-1591717138946)(D:\写作\差分隐私—完整学习报告.assets\1565421354680.png)]

所以差分隐私也就应运而生,这项技术要解决的也正是这类问题。在差分隐私的保护下,任何单条记录在数据库中的有无不影响算法的输出结果,所以也就能实现个人隐私的保护。

2.1、中心化差分隐私和本地化差分隐私

差分隐私依据数据收集分析发放中保护的对象不一样可以分为两种差分隐私类型:中心化差分隐私和本地化差分隐私。

一般的数据收集分析;流程如下:

数据收集分析流程

数据收集:各个用户将自身的数据上传到第三方

数据分析:第三方利用所收集到的数据进行数据分析

结果发布:第三方将数据分析结果公开发布

即如图,依据隐私保护的目的和第三方是否可信可以将差分隐私分为中心化差分隐私和本地化差分隐私:

  • 中心化差分隐私:认为第三方是可信的,因此主要保护的是数据收集分析后的结果发放过程,差分隐私保护机制运行在可信第三方上。

  • 本地化差分隐私:认为第三方是不可信的,所以本地差分隐私保护的是用户上传数据到第三方的过程,差分隐私机制运行在各个用户的本地。

中心差分隐私和本地化差分隐私区别

2.1.1、中心化差分隐私:

首先我们要明白两个相邻数据集的概念,在这里 D D D D ’ D’ D具有相同的属性结构,在有界的DP(Differential Privacy)中,相邻数据集是可以通过替换某一项数据得到的,而对于无界的DP,相邻数据集则是通过增加或者加减一项数据得到,即后者中的数据集大小有差别。由于减掉一项元素再加一项元素等价于替换一项元素,因此在这里我们只讨论无界的DP情况。

一个算法 A A A应用于数据集 D D D上会得到一个结果 t t t,即 A ( D ) = t A(D) = t A(D)=t,同样把该算法运用于D的邻近数据集 D ‘ D‘ D上得到 t ′ t' t,即 A ( D ′ ) = t ′ A(D') =t' A(D)=t,倘若没有对这两项运算进行一定的处理,那么结果就可能出现由 t ′ − t t'-t tt透露出 D ′ − D D'-D DD的信息问题。因此我们差分隐私的主要思想就是对算法得到的结果进行混淆,使得对于临近数据集,我们得到相同结果即 t ′ − t = 0 t'-t=0 tt=0的概率保持在一定范围内,这样就可以在一定程度上抵御差分攻击。

ϵ − \epsilon- ϵ差分隐私的数学定义如下:

论文中的差分隐私定义

这两个输出同样结果的概率的相差幅度不能太大,这样而这个幅度就由 ϵ \epsilon ϵ进行调控,其中 ϵ > 0 \epsilon>0 ϵ>0我们称为隐私预算,当 ϵ = 0 \epsilon = 0 ϵ=0的时候此时隐私保护能力最强,即 P r ( A ( D ) = t ) = P r ( A ( D ′ ) = t ) Pr(A(D)=t)= Pr(A(D')=t) Pr(A(D)=t)=Pr(A(D)=t),但是此时由于输出相同结果的概率一致,原来的数据分布被破坏,导致数据的可用性很差。所以一般在实际的情况中,我们会提高隐私预算 ϵ \epsilon ϵ使得既能保证数据的可用性又能达到差分隐私保护。

根据差分隐私的数学定义可以推导出以下的性质定理:

1、后加工不变性(Posting-processing):

​ 若 A 1 ( ∗ ) A_1(*) A1()满足 ϵ − D P \epsilon-DP ϵDP,则对于任意复合函数 A 2 ( ∗ ) A_2(*) A2()也有, A 2 ( A 1 ( ∗ ) ) A_2(A_1(*)) A2(A1())也满足 ϵ − D P \epsilon-DP ϵDP

后加工不变性
2、串行合成性(Sequential composition):

​ 对于 A 1 ( D ) A_1(D) A1(D)满足 ϵ 1 − D P \epsilon_1-DP ϵ1DP A 2 ( s , D ) A_2(s,D) A2(s,D)满足 ϵ 2 − D P \epsilon_2-DP ϵ2DP则有, A 2 ( A 1 ( D ) , D ) A_2(A_1(D),D) A2(A1(D)D)满足 ( ϵ 1 + ϵ 2 ) − D P (\epsilon_1+\epsilon_2)-DP (ϵ1+ϵ2)DP

在这里插入图片描述

而该串行合成性可以扩展到多个算法复合,对一系列满足 ε 1 ε_1 ε1- differential
privacy, ε 2 − ε_2- ε2 differential privacy, ……, ε k ε_k εk- differential privacy 的 k 个算法,若将这
k k k 个算法顺序施加到一个数据集 D D D 上, 则合成后的算法满足 ( ε 1 + ε 2 + … … + ε k ) (ε_1+ε_2+……+ε_k) (ε1+ε2++εk)-
differential privacy

在这里插入图片描述
3、并行合成性(Parallel Composition):

若将数据集 D D D 划分为 $k 个 不 相 交 的 子 集 个不相交的子集 D_1,D_2,……,D_K$ 并对每个子集施加满足$ε_1,ε_2,……,ε_k $的差分隐私算法,则合成后的总数据集满足 m a x ( ε 1 , ε 2 , … … , ε k ) max(ε_1,ε_2,……,ε_k) max(ε1,ε2,,εk)-differential privacy。

在这里插入图片描述

值得注意的是,并行合成原理仅对无界差分隐私(Unbounded DP)生效,对有界差分隐私(Bounded DP)无效。
在这里插入图片描述

平行合成定理和随机划分函数:

在这里插入图片描述

4、凸性(Convexity)

若将一个满足 ε- differential privacy 的算法以 p1 的概率施加到数据集 D 上,将另一个满足 ε- differential privacy 的算法以 p2 的概率施加到同一个数据集 D 上,如此类推直至将第 k 个同样满足 ε- differential privacy的算法以 pk 的概率施加到数据集 D 上,且 p1+p2+……+pk=1,则这个合成的算法满足 ε- differential privacy。

在这里插入图片描述

2.1.2、本地化差分隐私

本地化差分隐私下的保护模型充分考虑了数据采集过程中数据收集者窃取或泄露用户隐私的可能性.该模型中,每个用户首先对数据进行隐私化处理,再将处理后的数据发送给数据收集者,数据收集者对采集到的数据进行统计,以得到有效的分析结果.即,在对数据进行统计分析的同时,保证个体的隐私信息不被泄露.本地化差分隐私的形式化定义如下:

在这里插入图片描述

在这里插入图片描述

从定义1中可以看出,本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法M满足争本地化差分隐私.简言之,根据隐私算法M的某个输出结果,几乎无法推理出其输入数据为哪一条记录.在中心化差分隐私保护技术中,算法的隐私性通过近邻数据集来定义,因此其要求一个可信的第三方数据收集者来对数据分析结果进行隐私化处理.对于本地化差分隐私技术而言,每个用户能够独立地对个体数据进行处理,即,隐私化处理过程从数据收集方转移到单个用户端上,因此不再需要可信第三方的介入,同时也免除了不可信第三方数据收集者可能带来的隐私攻击。本地差分隐私的定义从理论的角度保证了算法满足}本地化差分隐私,而实现 ϵ − \epsilon- ϵ 本地化差分隐私保护需要数据扰动机制的介入。

主要的扰动机制是随机响应技术,我们将在后面详细介绍。

2.1.3、本地化差分隐私和中心化差分隐私的异同

1、组合性质

差分隐私技术具有序列组合性和并行组合性两种特性【271,序列组合性强调隐私预算诃以在方法的不同步骤进行分配,而并行组合性则是保证满足差分隐私的算法在其数据集的不相交子集上的隐私性.从定义上来看,中心化差分隐私定义在近邻数据集上,本地化差分隐私则是定义在其中的两条记录上,而隐私保证的形式并未发生变化,因此本地化差分隐私将上述两种组合特性继承下来。

2、噪声机制

在中心化差分隐私保护技术中,为保证所设计的算法满足争差分隐私,需要噪声机制的介入,拉普拉斯机制和指数机制是其最常用的两种噪声机制,其中,拉普拉斯机制面向连续型数据的查询,而指数机制面向离散型数据的查询.上述两种噪声机制均与查询函数的全局敏感性【28】密切相关,而全局敏感性则是定义在至多差一条记录的近邻数据集之上,使得攻击者无法根据统计结果推测个体记录,即将个体记录隐藏在统计结果之中.在本地化差分隐私中,每个用户将各自的数据进行扰动后,再上传至数据收集者处,而任意两个用户之间并不知晓对方的数据记录,亦即,本地化差分隐私中并不存在全局敏感性的概念,因此,拉普拉斯机制和指数机制并不适用.目前,本地化差分隐私主要采用第1.2节中所述的随机响应技术来确保隐私算法满足争本地化差分隐私。

3、应用场景

中心化差分隐私保护技术的研究主要集中在数据发布、数据分析[34,35]和查询处理等方面,近年来取得了突出的研究进展,然而,其数据的隐私化处理过程始终依靠一个可信的第三方数据收集者来完成.某种程度上来说,这一点也限制了差分隐私技术的发展,在隐私意识不断增强的背景下,如何保证数据收集者不会从中窃取用户的隐私信息将是一个重要的考量.基于此,本地化差分隐私技术应运而生,进一步细化了对个人隐私信息的保护,其摒弃了可信第三方数据收集者的假设,将数据的隐私化处理过程转移到每个用户上,这样不仅能够对敏感信息进行更加彻底的保护,而且隐私化处理过程更加简洁、明了.此外,由于每个用户能够掌握个人的敏感信息处理过程,这也使得用户可以根据自身需求,进行更加个性化的隐私设置.中心化差分隐私技术通过定义全局敏感性为查询结果添加响应噪声,再以统计的方式限制隐私信息泄露的量化边界,从而能将个体记录隐藏在统计结果中.因此,中心化差分隐私技术并不对统计数据量作特别要求.不同于此,本地化差分隐私技术对个体数据进行正向和负向的扰动,最终通过聚合大量的扰动结果来抵消添加在其中的正负向噪声,从而得到有效的统计结果.然而,由于噪声的随机性,要保证统计结果的无偏性,必然需要海量的数据集来实现满足数据可用性的统计精度。

2.2、纯粹差分隐私(Pure-DP)和近似(Approximate)差分隐私

Pure-DP 是一种严格的差分隐私定义如下:

在这里插入图片描述

但是考虑到低概率条件下的概率比值问题,所以研究者新定义了一种较为宽松的差分隐私,即 ( ϵ , δ ) − D P (\epsilon,\delta)-DP (ϵ,δ)DP,其中纯粹差分隐私又可以看作是近似差分隐私的特例。

在这里插入图片描述

两者的主要区别如下:

在这里插入图片描述

3、中心化差分隐私的基本机制

3.1、敏感度

在描述具体机制的实现方法之前,我们需要定义“敏感度(sensitivity)”的概念。敏感度是用来控制噪声大小的参数,敏感度越大,为了维持输出结果相似所需要添加的噪声量就越大。

最常使用的敏感度主要有三种,为全局敏感度、局部敏感度和平滑敏感度。

3.1.1、全局敏感度

在这里插入图片描述
从全局敏感度的定义可以看出,全局敏感度是在整个 universeΧ 上所有可能的 D 和其相邻数据集 D’上找到的 f(D)与 f(D’)之间曼哈顿距离,因此全局敏感度只和查询函数 f 相关,反应的是一个查询函数在一对相邻数据集查询时最大的变化程度。像常见的 count 查询函数,其全局敏感度就是 1,因为无论怎样选择数据集,相差一个元素的相邻数据集对计数查询最大的变化量就是 1。但像mean(众数), median(中位数)等函数,其全局敏感度可能会非常大,导致添加的噪声也非常大,此时我们就需要“局部敏感度”和“平滑敏感度”来代入计算。

3.1.2、局部敏感度

在这里插入图片描述

局部敏感度的定义与全局敏感度非常相似,唯一的区别在于局部敏感度只在全部 D’中寻找最大值,这就是说局部敏感度是在确定了数据集 D 的前提下定义的,全局敏感度是全部局部敏感度的最大值。

因此也就是说局部敏感度是随着数据集D变化而变化的,因此应用范围受限并且由于局部敏感度的剧烈变化,因此会透露出数据集D的信息,所以研究人员定义了了平滑上界和平滑敏感度 ,试图加强局部敏感度的隐私保护能力。

3.1.3、平滑上界和平滑敏感度

为定义平滑敏感度,我们要先定义局部敏感度的“平滑上界”, 平滑上界是
一个通过超参数β定义的函数 S(x):

在这里插入图片描述

在了解了查询函数 f 的平滑上界后,我们可以定义数据集 D 和查询函数 f f f 所对应的平滑敏感度:

在这里插入图片描述

平滑敏感度就是满足上述平滑上界定义的最小函数,平滑敏感度和局部敏感度相比可以更好地保护用户的隐私安全,但计算平滑敏感度有时是困难的,在一定条件下,平滑敏感度的计算会达到 NP-困难, Nissim 等人在他们提出平滑敏感度的论文"Smooth sensitivity and sampling in private data analysis."中给出了一个名为 Sample-Aggregate framework 的框架来解决这个问题。

这三者关系可以使用该图进行表示:

在这里插入图片描述

3.2、拉普拉斯机制和高斯机制

为了保证对于临近数据集我们的算法给出相同答案的概率一致,我们首先想到的是给我们的结果加一一个噪声来进行掩盖和混淆。即我们的输出 f ′ ( D ) = f ( D ) + X f'(D) = f(D)+X f(D)=f(D)+X 其中 X X X是我们需要添加的噪音,下面我们通过分析来推导:

首先添加噪声后的结果应该满足:
P r ( f ′ ( D ) = t ) P r ( f ′ ( D ′ ) = t ) = f ( D ) + X = t f ( D ′ ) + X = t = X = t − f ( D ) X = t − f ( D ′ ) < = e ϵ \dfrac{Pr(f'(D) =t)}{Pr(f'(D')=t)}=\dfrac{f(D)+X =t}{f(D')+X =t}=\dfrac{X= t-f(D)}{X=t-f(D')}<= e^{\epsilon} Pr(f(D)=t)Pr(f(D)=t)=f(D)+X=tf(D)+X=t=X=tf(D)X=tf(D)<=eϵ
自然地,我们令 d = f ( D ) − f ( D ′ ) d = f(D)-f(D') d=f(D)f(D),即要保证:

X = x P r ( X = x + d ) < = e ϵ \dfrac{X = x}{ Pr(X = x+d)}<= e^{\epsilon} Pr(X=x+d)X=x<=eϵ对任一 x x x 均要成立

因此我们可以看到我们要选择的噪声 X X X的分布应该需要和 d = f ( D ) − f ( D ′ ) d=f(D) -f(D') d=f(D)f(D)有关,因此首先我们要考虑 d d d。因此下面我们考虑全局敏感度和局部敏感度的定义。

全局敏感度$\Delta f = max |f(D) - f(D’)| $

这样我们就可以保证了d是必须满足 d < = Δ f d<=\Delta f d<=Δf的。

因此我们可以进一步分析,当我们取噪声的分布为 L a p l a c e ( Δ f ϵ ) Laplace(\dfrac{\Delta f}{\epsilon}) Laplace(ϵΔf)时,此时概率密度分布函数为 P r ( L a p ( β ) = x ) = 1 2 β e − ∣ x ∣ / β Pr(Lap(\beta)=x) = \dfrac{1}{2\beta}e^{-|x|/\beta} Pr(Lap(β)=x)=2β1ex/β。因此有 β = Δ f / ϵ \beta = \Delta f/\epsilon β=Δf/ϵ
P r [ L a p ( β ) = x ] P r [ L a p ( β ) = x + d ] < = e d / β < = e Δ f / β = e ϵ \dfrac{Pr[Lap(\beta)=x]}{Pr[Lap(\beta)=x+d]}<=e^{d/\beta}<=e^{\Delta f/\beta} = e^{{\epsilon}} Pr[Lap(β)=x+d]Pr[Lap(β)=x]<=ed/β<=eΔf/β=eϵ
因此我们得到了差分隐私的Laplace机制:

对于任一函数 f f f,拉普拉斯机制 A f ( D ) = f ( D ) + L a p ( Δ f / β ) A_f(D)=f(D)+Lap(\Delta f/\beta) Af(D)=f(D)+Lap(Δf/β)满足 ϵ − D P \epsilon-DP ϵDP

其中拉普拉斯分布为:

在这里插入图片描述

若 μ=0,则称 x 满足 Lap(b),其具体图像为:

在这里插入图片描述

这种情况往往适合用于查询数值的例子,例如计数查询等。

在这里插入图片描述

对 Laplace 机制定义稍加变形,我们就能获得 Laplace 机制的一个特例——高
斯分布。高斯分布的敏感度采用 L2 间距(欧氏距离), 添加的噪声为独立同分布的
随机高斯噪声。其具体定义为:

在这里插入图片描述

相比于上述机制中使用的第一范式敏感度,在这里我们使用第二范式敏感度:
Δ 2 f = m a x D , D ′ ∣ ∣ f ( D ) − f ( D ′ ) ∣ ∣ 2 \Delta_2f = max_{D,D'}||f(D)-f(D')||_2 Δ2f=maxD,Df(D)f(D)2
该机制使用的高斯函数 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)是均值为0,其方差为 σ 2 \sigma^2 σ2,其中 σ = Δ 2 f 2 l n ( 2 / δ ) \sigma= \Delta_2f \sqrt{2ln(2/\delta)} σ=Δ2f2ln(2/δ) ,则有该机制M:

M ( D ) = f ( D ) + N ( 0 , σ 2 ) M(D) = f(D)+N(0,\sigma^2) M(D)=f(D)+N(0,σ2)满足 ϵ , δ \epsilon,\delta ϵ,δ差分隐私

###3.3、指数机制

对于数值型查询我们可以很好的利用拉普拉斯机制来进行差分隐私保护,但是对于非数值型,拉普拉斯机制的加数值噪声的机制便显得无能为力起来了。因此,我们考虑了指数机制,其一般适用于这种情况,我们要找出数据库中出现次数最多物品,这个时候由于查询结果不是数值,因此加噪声是不可以的。

但是同样可以考虑混淆查询的结果,假设数据库中出现次数最多的前几位为 T 1 , T 2 , T 3 . . . . T_1,T_2,T_3.... T1,T2,T3....,为了保证我们的查询具有差分隐私保护,我们可以考虑对于输出结果给予一定的概率分布,得到结果 T 1 , T 2 , T 3 . . . . . T_1,T_2,T_3..... T1T2T3.....的概率依次递减,从而使得查询并不会每次出现精确的结果,但是又保证了数据的可用性。

下面我们进行更加精确的数学推导和定义:

我们需要发布数据 f ( D ) f(D) f(D) O O O是我们所有可能的输出的集合。为了要满足 ϵ − D P \epsilon-DP ϵDP,我们必须要按照一定的概率分布来发布 O O O中的值, q ( D , o ) q(D,o) q(D,o)定义为D中项目 o o o出现的次数。

指数机制:

首先定义全局敏感度: Δ q = m a x ∀ o , D ≃ D ′ ∣ q ( D , o ) − q ( D ′ , o ) ∣ \Delta q = max_{\forall o,D \simeq D'}|q(D,o)-q(D',o)| Δq=maxo,DDq(D,o)q(D,o),和之前的拉普拉斯机制一样,有了全局敏感度之后我们就可以依此调整我们的隐私预算 ϵ \epsilon ϵ

我们的差分隐私输出结果: P r [ M q ϵ ( D ) = o ] = e x p ( ϵ q ( D , o ) / 2 Δ q ) Σ o ′ ∈ O e x p ( ϵ q ( D , o ′ ) / 2 Δ q ) Pr[M^{\epsilon}_q(D)=o] = \dfrac{exp(\epsilon q(D,o)/2\Delta q)}{\Sigma_{o'\in O }exp(\epsilon q(D,o')/2\Delta q)} Pr[Mqϵ(D)=o]=ΣoOexp(ϵq(D,o)/2Δq)exp(ϵq(D,o)/2Δq)

同时有: e x p ( ϵ q ( D , o ) 2 Δ q ) e x p ( ϵ q ( D ′ , o ) 2 Δ q ) = e x p ( ϵ ( q ( D , o ) − q ( D ′ , o ) ) 2 Δ q ) < = e x p ( ϵ / 2 ) \dfrac{exp(\dfrac{\epsilon q(D,o)}{2\Delta q})}{exp(\dfrac{\epsilon q(D',o)}{2\Delta q})} = exp(\dfrac{\epsilon(q(D,o)-q(D',o))}{2\Delta q})<= exp(\epsilon/2) exp(2Δqϵq(D,o))exp(2Δqϵq(D,o))=exp(2Δqϵ(q(D,o)q(D,o)))<=exp(ϵ/2)

所以下面我们证明该机制满足 ϵ − D P \epsilon- DP ϵDP
P r [ M q ϵ ( D ) = o ] P r [ M q ϵ ( D ′ ) = o ] = e x p ( ϵ q ( D , o ) / 2 Δ q Σ o ′ ∈ O e x p ( ϵ q ( D , o ′ ) / 2 Δ q ) e x p ( ϵ q ( D ′ , o ) / 2 Δ q ) Σ o ′ ∈ O e x p ( ϵ q ( D ′ , o ′ ) / 2 Δ q ) = . . . . < = e x p ( ϵ ) \dfrac{Pr[M^{\epsilon}_q(D)=o]}{Pr[M^{\epsilon}_q(D')=o]} =\dfrac{\dfrac{exp(\epsilon q(D,o)/2\Delta q}{\Sigma_{o'\in O }exp(\epsilon q(D,o')/2\Delta q)}}{\dfrac{exp(\epsilon q(D',o)/2\Delta q)}{\Sigma_{o'\in O }exp(\epsilon q(D',o')/2\Delta q)}} = ....<= exp(\epsilon) Pr[Mqϵ(D)=o]Pr[Mqϵ(D)=o]=ΣoOexp(ϵq(D,o)/2Δq)exp(ϵq(D,o)/2Δq)ΣoOexp(ϵq(D,o)/2Δq)exp(ϵq(D,o)/2Δq=....<=exp(ϵ)
单调性的指数机制推导:

∀ o ∈ O , q ( D , o ) > = q ( D ′ , o ) \forall o \in O, q(D,o)>=q(D',o) oO,q(D,o)>=q(D,o)或者 ∀ o ∈ O , q ( D , o ) < = q ( D ′ , o ) \forall o \in O, q(D,o)<=q(D',o) oO,q(D,o)<=q(D,o)成立时,此时概率函数可以取为 e x p ( ϵ q ( D , t ) Δ q ) exp(\dfrac{\epsilon q(D,t)}{\Delta q}) exp(Δqϵq(D,t)),此时仍然满足 ϵ − D P \epsilon-DP ϵDP,而且此时我们数据的可用性进一步加强,可以看到,选择精确的结果的概率要变得更高(如果之前选择的概率比为10:1,现在将变为100:1)

证明如下:假设单调性为 ∀ o ∈ O , q ( D , o ) < = q ( D ′ , o ) \forall o \in O, q(D,o)<=q(D',o) oO,q(D,o)<=q(D,o),则有:

e x p ( ϵ q ( D , o ′ ) / Δ q ) < = e x p ( ϵ q ( D ′ , o ′ ) ) exp(\epsilon q(D,o')/\Delta q)<=exp(\epsilon q(D',o')) exp(ϵq(D,o)/Δq)<=exp(ϵq(D,o))

同时依据前式有

e x p ( ϵ q ( D ′ , o ′ ) Δ q ) < = e x p ( ϵ ) e x p ( ϵ q ( D , o ′ ) Δ q ) exp(\dfrac{\epsilon q(D',o')}{\Delta q})<= exp(\epsilon)exp(\dfrac{\epsilon q(D,o')}{\Delta q}) exp(Δqϵq(D,o))<=exp(ϵ)exp(Δqϵq(D,o))

因此:

。。。

综上有 e x p ( − ϵ ) < = P r [ M q ϵ ( D ) = o ] P r [ M q ϵ ( D ′ ) = o ] < = e x p ( ϵ ) exp(-\epsilon)<=\dfrac {Pr[M^{\epsilon}_q(D)= o]}{Pr[M^{\epsilon}_q(D')=o]}<= exp(\epsilon) exp(ϵ)<=Pr[Mqϵ(D)=o]Pr[Mqϵ(D)=o]<=exp(ϵ)

在这里插入图片描述
在“Differential Privacy-From Theory to Practice”一书中作者还指出,指数
机制与 Laplace 机制存在着内在的联系,我们可以用等式说明 Laplace 机制可以
看成指数机制的一个特例,等式为:

在这里插入图片描述

在这里插入图片描述

###3.4、隐私预算 ϵ \epsilon ϵ 的选择

我们谈到 ϵ \epsilon ϵ 称为隐私预算,在差分隐私中起到了控制概率相似程度的作用,作为衡量隐私保护程度的指标。

但是一个重要的问题是如何选择一个合适的 ε, 使得 differential privacy 算法能兼顾可用性和
隐私保护能力? 有一点是可以肯定的,那就是过小的 ε 值会导致可用性降低 。

定义差分隐私的DWork说:“ ϵ \epsilon ϵ 的选择从本质上是一个社会问题。我们倾向于 ϵ \epsilon ϵ 的选择为 0.01、0。1或者某些情况下选择 $ln \ 2 、 、 ln \ 3$。” 下表描述了一些在给定的 $\epsilon $ 和 概率 $ p$ 的情况下, p ′ p' p 的概率分布。可以看到 ϵ = 0.1 \epsilon = 0.1 ϵ=0.1 ϵ = 1 \epsilon=1 ϵ=1的情况基本可以接受,而$\epsilon =5 时 在 大 部 分 情 况 下 都 不 能 接 受 。 而 时在大部分情况下都不能接受。而 \epsilon > 10$ 基本上是一个失败的DP机制。

在这里插入图片描述

####3.5、差分隐私中的效应性度量

当我们把隐私水平控制在 ϵ \epsilon ϵ下时,此时对于差分隐私数据发布和分析,以及我们差分隐私保护的表现我们可以使用以下的机制进行衡量:

6.1噪声规模衡量

这是一种最简单直观的方法,噪声越小就意味着数据的可用性越强。该方法在数据的发布中广泛应用。

6.2错误率衡量

效应性也可以通过精确的输出和经过差分隐私保护后的输出间的差异进行衡量。例如对于单次查询的效用性可以被式子 ∣ f ( D ) − f ( D ) ′ ∣ |f(D)-f(D)'| f(D)f(D)来简单衡量,越小的距离代表越高的可用性。通用对于数据发布的情况我们采取下面的( α , β − 可 用 性 \alpha,\beta-可用性 α,β)标准进行衡量:
P r ( m a x f ∈ F ∣ F ( D ) − F ′ ( D ) ∣ < = α ) > 1 − β Pr(max_{f\in F}|F(D)-F'(D)|<=\alpha)>1-\beta Pr(maxfFF(D)F(D)<=α)>1β
其中 F F F是一系列的查询集合,而 α \alpha α则是准确度参数来控制错误率

而对于数据分析来说,其效用性往往依赖于其算法,假定分析算法为 M M M,隐私分析算法为 M ′ M' M则:

P r ( m a x ∣ M ( D ) − M ′ ( D ) ∣ < = α ) > 1 − β Pr(max |M(D)-M'(D)|<=\alpha)>1-\beta Pr(maxM(D)M(D)<=α)>1β

4、本地化差分隐私基本机制

4.1、随机响应技术

Warner于1965年提出利用随机响应技术进行隐私保护,我们将其称为W-RR,其主要思想是利用对敏感问题响应的不确定性对原始数据进行隐私保护。

随机扰动技术主要包括两个步骤:扰动性统计和校正。

为了具体介绍随机响应技术,下面首先引入一个具体的问题场景.假设有n个用户,其中艾滋病患者的真实比例为乃但我们并不知道.我们希望对其比例君进行统计.于是发起一个敏感的问题.‘‘你是否为艾滋病患者?”。每个用户对此进行响应,第f个用户的答案置为是或否,但出于隐私性考虑,用户不会直接响应真实答案.假设其借助于一枚非均匀的硬币来给出答案,其正面向上的概率为P,反面向上的概率为1—p.抛出该硬币,若正面向上,则回答真实答案,反面向上,则回答相反的答案。

进行扰动性统计.利用上述扰动方法对n个用户的回答进行统计,可以得到艾滋病患者人数的统计值.假设统计结果中,回答“是”的人数为 n 1 n_1 n1。,则回答“否”的人数为 n − n 1 n-n_1 nn1,I显然,按照上述统计,回答“是”和“否”的用户比例如下:

在这里插入图片描述

显然,上述的统计比例并非真实比例的无偏估计,因此需要对统计结果进行校正。

构建一下似然函数:

在这里插入图片描述

因此得到 π \pi π 的极大似然估计:

在这里插入图片描述

在这里插入图片描述

5、差分隐私数据发布机制

差分隐私数据的发布目标是为了向公众输出数据的信息同时又不暴露任何个人的记录。

我们重新把问题定位则是:对于Curator中的一个数据集D,其收到一系列的查询集 F = f 1 , . . . . , f m F={f_1,....,f_m} F=f1,....,fm,被要求在差分隐私的限制下回复每一个查询。在这种情况下存在两种不同的设置:交互式和非交互式。对于交互式来说,一个查询 f i f_i fi不会被回答直到其上一个查询 f i − 1 f_{i-1} fi1$已经被发布。在非交互式的设置中,所有的查询同时提交给Curator,Curator针对该查询集给出对应的回复。

例如在下面的例子中,D是一个医疗数据库,有以下的两个查询:

f 1 f_1 f1:在40-79岁之间有糖尿病的病人的数量是多少?

f 2 f_2 f2:在40-59岁之间有糖尿病的病人的数量是多少?

D的情况如图:

NameAgeDiabetes
Alen25N
Bob29N
Cathy35Y
David41Y
Emily56N
Emma21Y

对于交互式而言,Curator首先回复 f 1 f_1 f1,需要添加的拉普拉斯噪声为 L a p ( 1 / ϵ ) Lap(1/\epsilon) Lap(1/ϵ),由于此时全局敏感度为 Δ f = 1 \Delta f =1 Δf=1当回复完f_1之后,Curator收到了 f 2 f_2 f2,由于此时如果D中的一项数据进行变动,最多会改变两个f的值,因此 Δ f = 2 \Delta f =2 Δf=2,需要添加的噪声为 L a p ( 2 / ϵ ) Lap(2/\epsilon) Lap(2/ϵ)。即总共需要添加的噪声为 L a p ( 1 / ϵ ) + L a p ( 2 / ϵ ) Lap(1/\epsilon)+Lap(2/\epsilon) Lap(1/ϵ)+Lap(2/ϵ)

而对于非交互式设置而言,Curator需要同时回复两个查询 f f f,所以改变任意一项数据可能会导致个查询的结果都发生变动,所以此时 Δ f = 2 \Delta f = 2 Δf=2,不管是对于 f 1 f_1 f1还是 f 2 f_2 f2都需要添加噪声为 L a p ( 2 / ϵ ) Lap(2/\epsilon) Lap(2/ϵ),即总共需要添加噪声为 2 ∗ L a p ( 2 / ϵ ) 2*Lap(2/\epsilon) 2Lap(2/ϵ)

我们可以看到在非交互的设置中,由于查询函数f之间存在联系,所以导致全局敏感度更高,所以通常而言非交互式会比交互式带来更高的噪声。我们可以看到当查询函数之间存在联系时,随着查询函数的数量增多,我们需要添加的噪声也越来越大。根据【59】的一篇文章中研究结果,对于一个大小为n的数据集,在一定的精确度下最多可以回答n的亚线性个查询。为了让问题简单化,在后面关于交互式查询的许多论文中假设这些查询之间是相互独立的。但是这些缺点也使得拉普拉斯机制在大量的查询的情况变得不适用起来,所以研究者提出了新的数据发布思路来解决该问题。

  • 输入数据的形式:Trasaction,直方图,图,stream
  • 输出数据形式:查询结果,合成数据集
  • 数据发布设置:交互式,非交互式
  • 发布机制:Laplace/Exponential 拉普拉斯/指数机制,Query separation查询分割机制,Transformation数据库整形( D − − > A D-->A D>A,在A上进行查询),Iteration迭代机制,Partion of dataset 数据集划分
  • 挑战:查询数量,准确度,计算效率

下面针对这几项机制进行详细解释:

  • Transformation:该机制将原数据集映射到一个新的数据结构来调整敏感度和噪声。该机制的主要问题在于如何找到合适的结构来最小化查询的错误率。

    如上述的例子中,我们可以将D转变为下面的频率表:

    AgeDiabetes numbersVariable
    60-7941 x 1 x_1 x1
    40-5932 x 2 x_2 x2
    20-398 x 3 x_3 x3
    0-191 x 4 x_4 x4

    在新的结构中, f 2 f_2 f2可以直接由第二行回答,因此敏感度 Δ f = 1 \Delta f =1 Δf=1。同样从第一行中我们可以得到60-79岁-的糖尿病患者数量。由于这两个结果之间相互独立,所以对于 f 1 f_1 f1,我们的查询结果可以由 f 2 ′ f'_2 f2和第一行得到。两个查询的总噪声将为 3 ∗ L a p l a c e ( 1 / ϵ ) 3*Laplace(1/\epsilon) 3Laplace(1/ϵ),可以看到该噪声要明显低于非交互式的拉普拉斯机制。在该例子中,新的结构被用于分解查询间的关系,所以敏感度也随着下降。

  • 数据集划分(Partion of dataset):将原来的数据集划分成几部分来减少噪音。在上述的例子中,如果我们使用频率表来回答f_1,则噪声 L a p ( 1 / ϵ ) Lap(1/\epsilon) Lap(1/ϵ)需要被添加两次,第一次是被加到第一行,第二次是加到第二行。总共需要被添加的噪声为 2 ∗ L a p ( 1 / ϵ ) 2*Lap(1/\epsilon) 2Lap(1/ϵ)。但是如果我们重新组织数据的形式,例如为40-79岁,此时总噪声为 L a p ( 1 / ϵ ) Lap(1/\epsilon) Lap(1/ϵ)。但是该机制的问题就在于依据查询选择合适的数据划分方式

  • 查询分割(Query Separation):该机制假设一个查询集可以被分割成几个组以及一些查询可以在被重用的情况下回复。在上述的例子中,如果 f 2 f_2 f2被回答,那么 f 1 f_1 f1可以通过年龄区间扩大两倍,数量也应该扩大两倍估计出来。该机制是用于打破查询数量的限制的策略

  • 迭代机制(Iteration):迭代机制用于递归更新更新数据集来对一系列的查询的答案进行近似。例如,我们可以手工地定义初始数据集 D 0 D_0 D0,在上例中我们的初始数据集就是各个年龄区间内患糖尿病的病人数量相等,然后我们在 D 0 D_0 D0上运行 f 1 f_1 f1,然后将 f 1 ′ ( D ) f'_1(D) f1(D) f 1 ( D 0 ) f_1(D_0) f1(D0)j进行比较,如果二者的差小于我们所设定的阈值,那么我们就发布 f 1 ( D 0 ) f_1(D_0) f1(D0) D 0 D_0 D0接着被使用。否则,发布 f 1 ′ ( D ) f'_1(D) f1(D),而 D 0 D_0 D0也将按照特定的策略被更新变成 D 1 D_1 D1。由于发布 f 1 ( D 0 ) ) f_1(D_0)) f1(D0))并不消耗任何隐私预算,所以该迭代机制可以达到更高的可用性,更多的查询。但是这里的问题在于如何设置更新策略和相应的参数,阈值如何设定

6、差分隐私和机器学习安全

机器学习的目的是从数据中提取有用的信息,而隐私是通过隐藏信息来保护的。因此,似乎很难调和这些相互竞争的利益。然而,在挖掘敏感数据时,它们常常必须保持平衡。例如,医学研究是一个重要的应用,它既需要提取有用的信息,又需要保护病人的隐私。解决这一冲突的一种方法是在不披露个人隐私的情况下提取全体人口的一般特征。在本文中,我们认为差分隐私是最流行和最强大的隐私定义之一。我们探讨了机器学习与差分隐私之间的相互作用,即保护隐私的机器学习算法和基于学习的数据发布机制。我们还描述了一些理论结果,解决了差分隐私算法中可学习的内容和损失函数的上界问题。最后,我们提出一些开放式的问题,包括如何将公共数据,如何处理隐私数据集中的缺失数据,以及相比于对应的非差分隐私保护算法,随着被考察的案例样本任意增大,差分隐私机器学习算法是否可以达到无损耗使用。

在将差分隐私应用于机器学习与深度学习上之前,我们需要对机器学习及深度学习的模型进行探讨。机器学习的模型包含两个过程,一是使用训练样本(training set/dev set)对参数进行学习的学习阶段,二是使用测试数据(test set)对已经学习好的模型进行测试的预测阶段。针对机器学习模型的攻击在这两个阶段均有可能发生。

在机器学习隐私保护中,对手模型一般从四个方面去描述:攻击目标(Adversary’s goal), 攻击知识(Adversary’s knowledge), 敌手能力(Adversary’s capability), 攻击策略(Attack strategy)。机器学习的敌手攻击目标(adversary’s goal)可以从三个方面对机器学习模型
进行攻击: 机密性、完整性、可用性。机密性攻击指用户的敏感信息(sensitive information)经由机器学习模型被泄露。

在机器学习模型的两个阶段中,敌手可以通过接触训练样本直接获得用户敏感信息,也可以通过暴露预测阶段的模型和其预测结果来揭示用户敏感信息。完整性攻击指攻击者通过对模型的干扰使模型在预测阶段输出攻击者希望的结果,这可以通过对训练样本“投毒”,或是在预测阶段生成对抗样本等方式完成。可用性攻击指攻击者组织用户获得模型的正确输出,或使模型在应用环境下不可信赖。以下为具体的攻击方法:

在这里插入图片描述

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值