本地化差分隐私(Local Differential Privacy)浅析

       书接上文,这次来谈谈本地化差分隐私:

一、背景

       传统的差分隐私是将原始数据集中到一个数据中心,然后在此对数据施加差分隐私算法,并对外发布,称之为中心化差分隐私(Centralized Differential Privacy)。因此,中心化差分隐私有一个前提:可信的第三方数据收集者,即保证所收集的数据不会被窃取和泄露。然而,在实际生活中想找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化差分隐私的应用。

       鉴此,本地化差分隐私应运而生,基于不可信第三方的前提下,其将数据隐私化的工作转移到每个用户,用户自己来处理和保护个人数据,极大地降低了隐私泄露的可能性。

       中心化差分隐私与本地化差分隐私数据处理框架,如下图所示:

                        

                         中心化差分隐私数据处理框架图                                    本地化差分隐私数据处理框架图

二、定义

       任意本地化差分隐私函数f,定义域为Dom(f),值域为Ran(f),对任意输入tt^{'} \in Dom(f),输出t^{*} \in Ran(f)都有

                                                      P[ f(t) = t^{*} ] \leq e^{\varepsilon }\timesP[ f(t^{'}) = t^{*} ] 

       注意:a. 本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法f满足本地化差分隐私,即输出同为t^{*},窃密者无法确认输入为t还是t^{'}

                 b.  \varepsilon越小,任意两条记录输出结果相似性越高;反之,亦然。

三、扰动机制

       目前,随机响应(randomized response) 技术是本地化差分隐私保护技术的主流扰动机制,如下:

1、扰动性统计

       引入一个现实场景:有n个用户,假设AIDS患者的真实比例为\pi。我们希望对其比例进行统计,于是发起一个敏感的问题:“你是否为AIDS患者? ”,每个用户对此进行响应,第i个用户的答案为X_{i}是或否,但出于隐私性考虑,用户不会直接响应真实答案.假设其借助于一枚非均匀的硬币来给出答案,其正面向上的概率为p,反面向上的概率为1-p 。抛出该硬币,若正面向上,则回答真实答案,反面向上,则回答相反的答案。

       首先,进行扰动性统计。利用上述扰动方法对n个用户的回答进行统计,可以得到艾滋病患者人数的统计值.假设统计结果中,回答“ 是”的人数为n_{1},则回答“ 否”的人数为n-n_{1}。 显然,按照上述统计,回答“是”和“否”的用户比例如下:

                                                    P(X_{i}="yes") = \pi p +  (1-\pi )(1-p)

                                                    P(X_{i}="no") = (1-\pi )p + \pi(1-p)

2、校正

       显然,上述统计比例并非真实比例的无偏估计,因此需要对统计结果进行校正。

       因此,构建以下似然函数 :

                                                    L = [ \pi p + (1-p)(1-\pi )]^{n_{1}}[(1-\pi )p+\pi (1-p)]^{n-n_{1}}

       并得到\pi的极大似然估计:

                                                    \widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}

       求导过程:a. 对L取对数,得:

                                                    ln(L) = n_{1}ln[\pi (2p-1)+(1-p)] + (n-n_{1})ln[p-\pi (2p-1)]

                        b. 对上式关于\pi求导,得:

                                                    0=\frac{n_{1}(2p-1)}{\pi (2p-1)(1-p)}+\frac{(n_{1}-n)(2p-1)}{p-\pi (2p-1)}

                        c. 化简上式,可得:

                                                    \widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}

       \widehat{\pi }的数学期望证明\widehat{\pi }是真实\pi的无偏估计:

                                                    E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\frac{1}{n}\sum_{i=1}^{n}X_{i}]=\frac{1}{2p-1}[p-1+\frac{1}{n}nPr(X_{i}="yes")]

       即                                         E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\pi p+(1-\pi )(1-p)]=\pi

       由此可以得到校正的统计值,其中N表示统计得到的AIDS人数估计值:

                                                    N=\widehat{\pi }\times n=\frac{p-1}{2p-1}n+\frac{n_{1}}{2p-1}

       综上,根据总人数n,回答“是”的人数n_{1}扰动概率p,即可得到真实患病人数的统计值。为保证其满足\varepsilon-本地化差分隐私,根据定义,隐私预算\varepsilon设定为:

                                                    \varepsilon =ln\frac{p}{1-p}

       注意:p的取值为(0,1),即ln\frac{p}{1-p}的值可正可负,但e^{\varepsilon }恒大于0

四、本地化与中心化差分隐私的异同点

1、组合特性

       本地化差分隐私继承中心化差分隐私的串行和并行组合特性。(详见上篇文章)

2、数据处理

       中心化差分隐私的数据处理依靠可信第三方;本地化差分隐私的数据处理依靠的是用户本身

3、噪声机制

       中心化差分隐私的噪声机制主要以拉普拉斯机制和指数机制为主;本地化差分隐私的噪声机制主要以随机响应为主。

       暂定初稿,以后会慢慢补充

       That's all, good luck.

  • 29
    点赞
  • 123
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
本地化差分隐私 (Local Differential Privacy, LDP) 是一种保护个体隐私的方法,通过在本地对数据进行噪声扰动来保护隐私。信息熵可以用来评估差分隐私机制的隐私保护能力,即机制添加的噪声对原始数据的影响程度。 在 LDP 中,通常用 Laplace 噪声或者指数噪声对原始数据进行噪声扰动。假设原始数据为 $x$,添加的噪声为 $n$,则扰动后的数据为 $y=x+n$。Laplace 噪声的概率密度函数为 $f(x)=\frac{1}{2b}\exp(-\frac{|x-\mu|}{b})$,其中 $\mu$ 是噪声的均值,$b$ 是噪声的尺度参数。指数噪声的概率密度函数为 $f(x)=\frac{1}{b}\exp(-\frac{|x-\mu|}{b})$。 信息熵可以用来评估噪声扰动对隐私保护的影响程度。对于一个随机变量 $X$,其信息熵为 $H(X)=-\sum_{x\in X}p(x)\log_2p(x)$,其中 $p(x)$ 是 $X$ 取值为 $x$ 的概率。对于一个 LDP 机制,其添加的噪声可以看作是一个随机变量 $N$,则扰动后的数据 $Y=X+N$ 也是一个随机变量。假设隐私攻击者知道扰动后的数据 $Y$,则攻击者可以根据噪声分布反推出原始数据 $X$ 的概率分布。攻击者的信息熵为 $H(X|Y)$,表示在知道扰动后的数据 $Y$ 的情况下,对原始数据 $X$ 的不确定性。 LDP 机制的隐私保护能力可以用差分隐私 (Differential Privacy, DP) 的 $\epsilon$-不可区分性来衡量。$\epsilon$-不可区分性表示隐私攻击者在得到任意两个数据集的扰动结果之后,不能够区分出这两个数据集中是否包含某个特定的个体。$\epsilon$ 和信息熵之间有一个关系式:$\epsilon\approx\frac{\Delta f}{b}$,其中 $\Delta f$ 是查询函数的灵敏度,$b$ 是噪声的尺度参数。对于相同的 $\epsilon$,噪声尺度 $b$ 越小,机制的隐私保护能力越强,即信息熵越大。因此,信息熵可以用来评估 LDP 机制的隐私保护能力。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值