差分隐私专栏

最新推荐文章于 2023-10-30 11:42:49 发布

古同俚语

最新推荐文章于 2023-10-30 11:42:49 发布

阅读量325

点赞数

文章标签：概率论算法机器学习

本文链接：https://blog.csdn.net/weixin_42779857/article/details/123494077

版权

差分隐私专栏

Laplace机制

Laplace机制

对于 数值型 的数据，一般采用 Laplace 或者高斯机制，对得到数值结果加入随机噪声即可实现差分隐私。

Laplace噪声

拉普拉斯噪声是指满足拉普拉斯分布的一个随机值，该分布的概率密度函数为：
$\mid \mu, b)=\frac{1}{2 b} e^{-\frac{|x-\mu|}{b}}$
$\mu$ 是位置参数， $b$ 是尺度参数。
图像分布如下：
在这里插入图片描述

由概率密度函数求分布的概率累积函数如下：
$\mathrm{F}(x \mid \mu, b)=\left\{\begin{array}{l} \frac{1}{2} e^{-\frac{\mu-x}{b}}, x<\mu \\ 1-\frac{1}{2} e^{-\frac{x-\mu}{b}}, x \geq \mu \end{array}\right.$
推导如下：
当 $x<\mu$ 时， $\mid \mu, b)=\frac{1}{2 b} e^{-\frac{\mu-x}{b}}$
$\mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=\frac{1}{2 b} \int_{-\infty}^{x} e^{\frac{x-\mu}{b}} d x$
令 $t=\frac{x-\mu}{b}$ ，可得：
$\mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{\frac{x-\mu}{b}} b e^{t} d t=\frac{1}{2} \int_{-\infty}^{\frac{x-\mu}{b}} e^{t} d t=\frac{1}{2}\left[e^{t}\right]_{-\infty}^{\frac{x-\mu}{b}}=\frac{1}{2} e^{-\frac{\mu-x}{b}}$
当 $\geq \mu$ 时，根据拉普拉斯分布的对称性可得：
$\mathrm{F}(x \mid \mu, b)=\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2 b} \int_{x}^{+\infty} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2 b} \int_{-\infty}^{x} e^{-\frac{\mu-x}{b}} d x=1-\frac{1}{2} e^{-\frac{\mu-x}{b}}$
拉普拉斯分布函数的期望和方差分别为 $\mu$ 和 $2b^{2}$ 。推导如下：
期望：
$\begin{aligned} \mathrm{E}(x) &=\frac{1}{2 b}\left(\int_{-\infty}^{\mu} x e^{-\frac{\mu-x}{b}} d x+\int_{\mu}^{+\infty} x e^{\frac{\mu-x}{b}} d x\right)=\frac{1}{2 b}\left(\int_{-\infty}^{0} b(b t+\mu) e^{t} d t-\int_{0}^{-\infty} b(\mu-b t) e^{t} d t\right) \\ &=\frac{1}{2 b} \int_{-\infty}^{0} b((b t+\mu)+(\mu-b t)) e^{t} d t=\int_{-\infty}^{0} \mu e^{t} d t=\mu \end{aligned}$
方差：
$\begin{aligned} \mathrm{D}(x) &=\mathrm{E}\left(x^{2}\right)-\mathrm{E}^{2}(x)=\frac{1}{2 b}\left(\int_{-\infty}^{\mu} x^{2} e^{-\frac{\mu-x}{b}} d x+\int_{\mu}^{+\infty} x^{2} e^{\frac{\mu-x}{b}} d x\right)-\mu^{2} \\ &=\frac{1}{2 b} \int_{-\infty}^{0} b\left((b t+\mu)^{2}+(\mu-b t)^{2}\right) e^{t} d t-\mu^{2} \\ &=\frac{1}{2 b} \int_{-\infty}^{0} 2 b\left(b^{2} t^{2}+\mu^{2}\right) e^{t} d t-\mu^{2}=b^{2} \int_{-\infty}^{0} t^{2} e^{t} d t=b^{2} \int_{-\infty}^{0} t^{2} d e^{t} \\ &=b^{2}\left(\left[t^{2} e^{t}\right]_{-\infty}^{0}-\int_{-\infty}^{0} e^{t} d t^{2}\right)=-2 b^{2} \int_{-\infty}^{0} t e^{t} d t=-2 b^{2}\left(\left[t e^{t}\right]_{-\infty}^{0}-\int_{-\infty}^{0} e^{t} d t\right) \\ &=2 b^{2} \end{aligned}$

Laplace噪声满足 $\varepsilon-$ 差分隐私定义

差分隐私定义：

对于相邻的数据集 $D$ 和 $D^{'}$ ，两者之间之多相差一条数据。给定一个一个映射函数 $\rightarrow R^{d}$ 。它表示一个数据集 $D$ 到一个 $d$ 维空间的映射关系。对于所得的函数 $f(D)=\left(x_{1}, x_{2}, \ldots, x_{d}\right)^{T}$ 上Laplace噪声，得到输出噪声 $M (D)$ 。
$M(D)=f(D)+\left(\operatorname{Lap}_{1}\left(\frac{\Delta f}{\varepsilon}\right), \ldots, \operatorname{Lap}_{d}\left(\frac{\Delta f}{\varepsilon}\right)\right)^{T}$
其中：
$\Delta f=\max _{D, D^{\prime}}\left\|f(D)-f\left(D^{\prime}\right)\right\|_{p}$ ，其中 $p$ 一般取值为1，即一范数。
**注释：1范数：所有元素绝对值的和。 $\|x\|_{1}=\left|x_{1}\right|+\left|x_{2}\right|+\left|x_{3}\right|+\left|x_{4}\right|+\ldots+\left|x_{n}\right|$
算法 $M$ 满足差分隐私定义条件是：
$\operatorname{Pr}[M(D) \in S] \leqslant e^{\varepsilon} * \operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]$
$S$ 表示为一组观察到的所有序列组合。类比与函数的值域。
证明
假设 $f(D)=\left(x_{1}, \ldots, x_{d}\right)^{T}, f\left(D^{\prime}\right)=\left(x_{1}^{\prime}, \ldots, x_{d}^{\prime}\right)^{T}=\left(x_{1}+\Delta x_{1}, \ldots, x_{d}+\Delta x_{d}\right)^{T}$
则：
$\Delta f=\max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left(\left|x_{i}-x_{i}^{\prime}\right|\right)\right)=\max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left|\Delta x_{i}\right|\right)$
为了简化，假定所有的 $x_{i}$ 均为0，那么 $\ldots, 0)^{T}, f\left(D^{\prime}\right)=\left(\Delta x_{1}, \ldots, \Delta x_{d}\right)^{T}$
记一个输出序列（向量） $S=\left(y_{1}, \ldots, y_{d}\right)^{T}$
证明技巧：化为分式比较
$\operatorname{Pr}[M(D) \in S]=\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}\right|}$
累乘号，是因为 $x_{i}$ 独立分布
$\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]=\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}-\Delta x_{i}\right|}$
两者相比可得：
$\frac{\operatorname{Pr}[M(D) \in S]}{\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]}=\frac{\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|y_{i}\right|}}{\prod_{i=1}^{d} \frac{\varepsilon}{2 \Delta f} e^{-\frac{\varepsilon}{\Delta f}\left|\Delta x_{i}-y_{i}\right|}}=\prod_{i=1}^{d} e^{-\frac{\varepsilon}{2 \Delta f}\left(\left|y_{i}\right|-\left|y_{i}-\Delta x_{i}\right|\right)}=e^{\frac{\varepsilon}{\Delta f} \sum_{i=1}^{d}\left(\left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right|\right)}$
由基本不等式可知：
$\left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right| \leq\left|y_{i}-\Delta x_{i}-y_{i}\right|=\left|\Delta x_{i}\right|$
故上式：
$\sum_{i=1}^{d}\left(\left|y_{i}-\Delta x_{i}\right|-\left|y_{i}\right|\right) \leq \sum_{i=1}^{n}\left|\Delta x_{i}\right| \leq \max _{D, D^{\prime}}\left(\sum_{i=1}^{n}\left|\Delta x_{i}\right|\right)=\Delta f$
于是有：
$\frac{\operatorname{Pr}[M(D) \in S]}{\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right]} \leqslant e^{\varepsilon}$
再由对称性可知：
$\operatorname{Pr}\left[M\left(D^{\prime}\right) \in S\right] \leqslant e^{\varepsilon} * \operatorname{Pr}[M(D) \in S]$

古同俚语

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
差分隐私专栏

差分隐私专栏Laplace机制Laplace噪声Laplace噪声满足ε−\varepsilon-ε−差分隐私定义差分隐私定义：合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Laplace机制你好！这是你第一次使用 Markdown编
复制链接

扫一扫