差分隐私专栏

Laplace机制

对于 数值型 的数据,一般采用 Laplace 或者 高斯 机制,对得到数值结果加入随机噪声即可实现差分隐私。

Laplace噪声

拉普拉斯噪声是指满足拉普拉斯分布的一个随机值,该分布的概率密度函数为:
f ( x ∣ μ , b ) = 1 2 b e − ∣ x − μ ∣ b f(x \mid \mu, b)=\frac{1}{2 b} e^{-\frac{|x-\mu|}{b}} f(xμ,b)=2b1ebxμ
μ \mu μ是位置参数, b b b 是尺度参数。
图像分布如下:
在这里插入图片描述

由概率密度函数求分布的概率累积函数如下:
F ( x ∣ μ , b ) = { 1 2 e − μ − x b , x < μ 1 − 1 2 e − x − μ b , x ≥ μ \mathrm{F}(x \mid \mu, b)=\left\{\begin{array}{l} \frac{1}{2} e^{-\frac{\mu-x}{b}}, x<\mu \\ 1-\frac{1}{2} e^{-\frac{x-\mu}{b}}, x \geq \mu \end{array}\right. F(xμ,b)={21ebμx,x<μ121ebxμ,xμ
推导如下:
x < μ x<\mu x<μ 时, f ( x ∣ μ , b ) = 1 2 b e − μ − x b f(x \mid \mu, b)=\frac{1}{2 b} e^{-\frac{\mu-x}{b}} f(xμ,b)=2b1ebμx
F ( x ∣ μ , b ) = 1 2 b ∫ − ∞ x e − μ − x b d x = 1 2 b ∫ − ∞ x e x − μ b d x \mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=\frac{1}{2 b} \int_{-\infty}^{x} e^{\frac{x-\mu}{b}} d x F(xμ,b)=2b1xebμxdx=2b1xebxμdx
t = x − μ b t=\frac{x-\mu}{b} t=bxμ,可得:
F ( x ∣ μ , b ) = 1 2 b ∫ − ∞ x − μ b b e t d t = 1 2 ∫ − ∞ x − μ b e t d t = 1 2 [ e t ] − ∞ x − μ b = 1 2 e − μ − x b \mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{\frac{x-\mu}{b}} b e^{t} d t=\frac{1}{2} \int_{-\infty}^{\frac{x-\mu}{b}} e^{t} d t=\frac{1}{2}\left[e^{t}\right]_{-\infty}^{\frac{x-\mu}{b}}=\frac{1}{2} e^{-\frac{\mu-x}{b}} F(xμ,b)=2b1bxμbetdt=21bxμetdt=21[et]bxμ=21ebμx
x ≥ μ x \geq \mu xμ时,根据拉普拉斯分布的对称性可得:
F ( x ∣ μ , b ) = 1 2 b ∫ − ∞ x e − μ − x b d x = 1 − 1 2 b ∫ x + ∞ e − μ − x b d x = 1 − 1 2 b ∫ − ∞ x e − μ − x b d x = 1 − 1 2 e − μ − x b \mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2 b} \int_{x}^{+\infty} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2} e^{-\frac{\mu-x}{b}} F(xμ,b)=2b1xebμxdx=12b1x+ebμxdx=12b1xebμxdx=121ebμx
拉普拉斯分布函数的期望和方差分别为 μ \mu μ 2 b 2 2b^{2} 2b2。推导如下:
期望:
E ( x ) = 1 2 b ( ∫ − ∞ μ x e − μ − x b d x + ∫ μ + ∞ x e μ − x b d x ) = 1 2 b ( ∫ − ∞ 0 b ( b t + μ ) e t d t − ∫ 0 − ∞ b ( μ − b t ) e t d t ) = 1 2 b ∫ − ∞ 0 b ( ( b t + μ ) + ( μ − b t ) ) e t d t = ∫ − ∞ 0 μ e t d t = μ \begin{aligned} \mathrm{E}(x) &=\frac{1}{2 b}\left(\int_{-\infty}^{\mu} x e^{-\frac{\mu-x}{b}} d x+\int_{\mu}^{+\infty} x e^{\frac{\mu-x}{b}} d x\right)=\frac{1}{2 b}\left(\int_{-\infty}^{0} b(b t+\mu) e^{t} d t-\int_{0}^{-\infty} b(\mu-b t) e^{t} d t\right) \\ &=\frac{1}{2 b} \int_{-\infty}^{0} b((b t+\mu)+(\mu-b t)) e^{t} d t=\int_{-\infty}^{0} \mu e^{t} d t=\mu \end{aligned} E(x)=2b1(μxebμxdx+μ+xebμxdx)=2b1(0b(bt+μ)etdt0b(μbt)etdt)=2b10b((bt+μ)+(μbt))etdt=0μetdt=μ
方差:
D ( x ) = E ( x 2 ) − E 2 ( x ) = 1 2 b ( ∫ − ∞ μ x 2 e − μ − x b d x + ∫ μ + ∞ x 2 e μ − x b d x ) − μ 2 = 1 2 b ∫ − ∞ 0 b ( ( b t + μ ) 2 + ( μ − b t ) 2 ) e t d t − μ 2 = 1 2 b ∫ − ∞ 0 2 b ( b 2 t 2 + μ 2 ) e t d t − μ 2 = b 2 ∫ − ∞ 0 t 2 e t d t = b 2 ∫ − ∞ 0 t 2 d e t = b 2 ( [ t 2 e t ] − ∞ 0 − ∫ − ∞ 0 e t d t 2 ) = − 2 b 2 ∫ − ∞ 0 t e t d t = − 2 b 2 ( [ t e t ] − ∞ 0 − ∫ − ∞ 0 e t d t ) = 2 b 2 \begin{aligned} \mathrm{D}(x) &=\mathrm{E}\left(x^{2}\right)-\mathrm{E}^{2}(x)=\frac{1}{2 b}\left(\int_{-\infty}^{\mu} x^{2} e^{-\frac{\mu-x}{b}} d x+\int_{\mu}^{+\infty} x^{2} e^{\frac{\mu-x}{b}} d x\right)-\mu^{2} \\ &=\frac{1}{2 b} \int_{-\infty}^{0} b\left((b t+\mu)^{2}+(\mu-b t)^{2}\right) e^{t} d t-\mu^{2} \\ &=\frac{1}{2 b} \int_{-\infty}^{0} 2 b\left(b^{2} t^{2}+\mu^{2}\right) e^{t} d t-\mu^{2}=b^{2} \int_{-\infty}^{0} t^{2} e^{t} d t=b^{2} \int_{-\infty}^{0} t^{2} d e^{t} \\ &=b^{2}\left(\left[t^{2} e^{t}\right]_{-\infty}^{0}-\int_{-\infty}^{0} e^{t} d t^{2}\right)=-2 b^{2} \int_{-\infty}^{0} t e^{t} d t=-2 b^{2}\left(\left[t e^{t}\right]_{-\infty}^{0}-\int_{-\infty}^{0} e^{t} d t\right) \\ &=2 b^{2} \end{aligned} D(x)=E(x2)E2(x)=2b1(μx2ebμxdx+μ+x2ebμxdx)μ2=2b10b((bt+μ)2+(μbt)2)etdtμ2=2b102b(b2t2+μ2)etdtμ2=b20t2etdt=b20t2det=b2([t2et]00etdt2)=2b20tetdt=2b2([tet]00etdt)=2b2

Laplace噪声满足 ε − \varepsilon- ε差分隐私定义

差分隐私定义:

对于相邻的数据集 D D D D ′ D^{'} D,两者之间之多相差一条数据。给定一个一个映射函数 f : D → R d f: D \rightarrow R^{d} f:DRd。它表示一个数据集 D D D到一个 d d d维空间的映射关系。对于所得的函数 f ( D ) = ( x 1 , x 2 , … , x d ) T f(D)=\left(x_{1}, x_{2}, \ldots, x_{d}\right)^{T} f(D)=(x1,x2,,xd)T上Laplace噪声,得到输出噪声 M ( D ) M(D) M(D)
M ( D ) = f ( D ) + ( Lap ⁡ 1 ( Δ f ε ) , … , Lap ⁡ d ( Δ f ε ) ) T M(D)=f(D)+\left(\operatorname{Lap}_{1}\left(\frac{\Delta f}{\varepsilon}\right), \ldots, \operatorname{Lap}_{d}\left(\frac{\Delta f}{\varepsilon}\right)\right)^{T} M(D)=f(D)+(Lap1(εΔf),,Lapd(εΔf))T
其中:
Δ f = max ⁡ D , D ′ ∥ f ( D ) − f ( D ′ ) ∥ p \Delta f=\max _{D, D^{\prime}}\left\|f(D)-f\left(D^{\prime}\right)\right\|_{p} Δf=D,Dmaxf(D)f(D)p,其中 p p p一般取值为1,即一范数。
**注释:1范数:所有元素绝对值的和。 ∥ x ∥ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + ∣ x 3 ∣ + ∣ x 4 ∣ + … + ∣ x n ∣ \|x\|_{1}=\left|x_{1}\right|+\left|x_{2}\right|+\left|x_{3}\right|+\left|x_{4}\right|+\ldots+\left|x_{n}\right| x1=x1+x2+x3+x4++xn
算法 M M M满足差分隐私定义条件是:
Pr ⁡ [ M ( D ) ∈ S ] ⩽ e ε ∗ Pr ⁡ [ M ( D ′ ) ∈ S ] \operatorname{Pr}[M(D) \in S] \leqslant e^{\varepsilon} * \operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right] Pr[M(D)S]eεPr[M(D)S]
S S S表示为一组观察到的所有序列组合。类比与函数的值域。
证明
假设 f ( D ) = ( x 1 , … , x d ) T , f ( D ′ ) = ( x 1 ′ , … , x d ′ ) T = ( x 1 + Δ x 1 , … , x d + Δ x d ) T f(D)=\left(x_{1}, \ldots, x_{d}\right)^{T}, f\left(D^{\prime}\right)=\left(x_{1}^{\prime}, \ldots, x_{d}^{\prime}\right)^{T}=\left(x_{1}+\Delta x_{1}, \ldots, x_{d}+\Delta x_{d}\right)^{T} f(D)=(x1,,xd)T,f(D)=(x1,,xd)T=(x1+Δx1,,xd+Δxd)T
则:
Δ f = max ⁡ D , D ′ ( ∑ i = 1 n ( ∣ x i − x i ′ ∣ ) ) = max ⁡ D , D ′ ( ∑ i = 1 n ∣ Δ x i ∣ ) \Delta f=\max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left(\left|x_{i}-x_{i}^{\prime}\right|\right)\right)=\max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left|\Delta x_{i}\right|\right) Δf=D,Dmax(i=1n(xixi))=D,Dmax(i=1nΔxi)
为了简化,假定所有的 x i x_{i} xi均为0,那么 f ( D ) = ( 0 , … , 0 ) T , f ( D ′ ) = ( Δ x 1 , … , Δ x d ) T f(D)=(0, \ldots, 0)^{T}, f\left(D^{\prime}\right)=\left(\Delta x_{1}, \ldots, \Delta x_{d}\right)^{T} f(D)=(0,,0)T,f(D)=(Δx1,,Δxd)T
记一个输出序列(向量) S = ( y 1 , … , y d ) T S=\left(y_{1}, \ldots, y_{d}\right)^{T} S=(y1,,yd)T
​ 证明技巧:化为分式比较
Pr ⁡ [ M ( D ) ∈ S ] = ∏ i = 1 d ε 2 Δ f e − ε Δ f ∣ y i ∣ \operatorname{Pr}[M(D) \in S]=\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}\right|} Pr[M(D)S]=i=1d2ΔfεeΔfεyi
累乘号,是因为 x i x_{i} xi独立分布
Pr ⁡ [ M ( D ′ ) ∈ S ] = ∏ i = 1 d ε 2 Δ f e − ε Δ f ∣ y i − Δ x i ∣ \operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]=\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}-\Delta x_{i}\right|} Pr[M(D)S]=i=1d2ΔfεeΔfεyiΔxi
两者相比可得:
Pr ⁡ [ M ( D ) ∈ S ] Pr ⁡ [ M ( D ′ ) ∈ S ] = ∏ i = 1 d ε 2 Δ f e − ε Δ f ∣ y i ∣ ∏ i = 1 d ε 2 Δ f e − ε Δ f ∣ Δ x i − y i ∣ = ∏ i = 1 d e − ε 2 Δ f ( ∣ y i ∣ − ∣ y i − Δ x i ∣ ) = e ε Δ f ∑ i = 1 d ( ∣ y i − Δ x i ∣ − ∣ y i ∣ ) \frac{\operatorname{Pr}[M(D) \in S]}{\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]}=\frac{\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}\right|}}{\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|\Delta x_{i}-y_{i}\right|}}=\prod_{i=1}^{d} e^{-\frac{\varepsilon}{2 \Delta f}\left(\left|y_{i}\right|-\left|y_{i}-\Delta x_{i}\right|\right)}=e^{\frac{\varepsilon}{\Delta f} \sum_{i=1}^{d}\left(\left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right|\right)} Pr[M(D)S]Pr[M(D)S]=i=1d2ΔfεeΔfεΔxiyii=1d2ΔfεeΔfεyi=i=1de2Δfε(yiyiΔxi)=eΔfεi=1d(yiΔxiyi)
由基本不等式可知:
∣ y i − Δ x i ∣ − ∣ y i ∣ ≤ ∣ y i − Δ x i − y i ∣ = ∣ Δ x i ∣ \left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right| \leq\left|y_{i}-\Delta x_{i}-y_{i}\right|=\left|\Delta x_{i}\right| yiΔxiyiyiΔxiyi=Δxi
故上式:
∑ i = 1 d ( ∣ y i − Δ x i ∣ − ∣ y i ∣ ) ≤ ∑ i = 1 n ∣ Δ x i ∣ ≤ max ⁡ D , D ′ ( ∑ i = 1 n ∣ Δ x i ∣ ) = Δ f \sum_{i=1}^{d}\left(\left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right|\right) \leq \sum_{i=1}^{n}\left|\Delta x_{i}\right| \leq \max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left|\Delta x_{i}\right|\right)=\Delta f i=1d(yiΔxiyi)i=1nΔxiD,Dmax(i=1nΔxi)=Δf
于是有:
Pr ⁡ [ M ( D ) ∈ S ] Pr ⁡ [ M ( D ′ ) ∈ S ] ⩽ e ε \frac{\operatorname{Pr}[M(D) \in S]}{\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]} \leqslant e^{\varepsilon} Pr[M(D)S]Pr[M(D)S]eε
再由对称性可知:
Pr ⁡ [ M ( D ′ ) ∈ S ] ⩽ e ε ∗ Pr ⁡ [ M ( D ) ∈ S ] \operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right] \leqslant e^{\varepsilon} * \operatorname{Pr}[M(D) \in S] Pr[M(D)S]eεPr[M(D)S]

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值