差分隐私中的组合性质-串行，并行，推论

最新推荐文章于 2023-01-17 12:30:00 发布

第七个bug

最新推荐文章于 2023-01-17 12:30:00 发布

阅读量5.3k

点赞数 5

分类专栏：差分隐私

本文链接：https://blog.csdn.net/weixin_42006387/article/details/105665106

版权

差分隐私专栏收录该内容

7 篇文章 5 订阅

订阅专栏

文章目录

Laplace噪声的概率累积函数
- Laplace噪声概率函数
- Laplace噪声的概率累积函数
兄弟数据集解释
- - 对称差集 $\bigoplus$
  - 差分隐私定义概念延展（完整版）
差分隐私的组合原理

Laplace噪声的概率累积函数

Laplace噪声概率函数

$f(x|\mu,b)=\frac{1}{2b}e^\frac{-|x-\mu|}{b}$

Laplace噪声的概率累积函数

$F(x|\mu,b)=\begin{cases} \frac{1}{2}e^{-\frac{\mu-x}{b}},x<\mu \\1-\frac{1}{2}e^{-\frac{x-\mu}{b}},x\geqslant \mu\end{cases}$

做出其图像为：

这个函数莫名像sigmod函数，有木有！

由于概率累计分布的值域区间为 $[0, 1]$ ，因此在生成Laplace噪声之前应该先生成区间在 $[0, 1]$ 之间的满足均匀分布的随机值。

通过求解概率累积函数的反函数即可求得累积函数的反函数即可求得满足Laplace分布的噪声。

计算的方法见MathThinker，这里的计算还是很简单的，自己可以搞定。

他的求解方法，看懂了。求反函数的基本套路，反解法。反函数的图像和原图像关于直线 $y = x$ 对称。

若， $\xi-Uni(0,1)$ 满足均匀分布，则

逆累积分布函数为：
$x=\begin{cases}b\ln(2\xi)+\mu,\xi<\frac{1}{2} \\\mu-b\ln(2(1-\mu)),\xi\geqslant\frac{1}{2}\end{cases}$
若， $\xi-Uni(-0.5,0.5)$ 满足的均匀分布。假定 $\xi'-Uni(-0.5,0.5)$ ，则 $\xi'+0.5-Uni(0,1)$ 的均匀分布，令 $\xi=\xi'+0.5$ ，采用上述的结论得：
$x=\begin{cases}\mu+b\ln(1+2\xi'),\xi'<0 \\\mu-b\ln(1-2\xi'),\xi' \geqslant0\end{cases}$
这样说的好处是，可以是将分段函数统一。
$x=\mu-b*sign(\xi')*ln(1-2*sign(\xi')*\xi)$

兄弟数据集解释

对称差集 $\bigoplus$

对称差集 $\bigoplus$ ：集合运算式， $T=R\bigoplus S=(R\cup S)-(R \cap S)$

记 $\Delta=|R\bigoplus S|$ 表示对称差集中的元素个数。

而集合 $R$ 和集合 $S$ 为兄弟数据集当且仅当 $|R\bigoplus S|=1$ 。

差分隐私定义概念延展（完整版）

对于 $\forall D,D'满足$ $|D\bigoplus D'|=1,O \in Range(A)$ ，如果算法 $A$ 满足 $\leqslant e^{\varepsilon * |D \bigoplus D'|}*Pr[A(D')=O]$ ，则算法 $A$ 满足 $\varepsilon * |D \bigoplus D'|$ -差分隐私。

由于定义的前提是满足 $\bigoplus D|=1$ ，所以就变成了 $\varepsilon$ -差分隐私。

注：接下来的原理解释，需要用到 $\bigoplus D|$ 的性质

差分隐私的组合原理

差分隐私的串行组合原理

条件：
1. 算法 $A_i(D)$ 分别满足 $\varepsilon_i$ -差分隐私
2. 任意两个算法的随机过程相互独立
结论：
- 算法满足 $\displaystyle \sum_{i=1}^m \varepsilon_i$ -差分隐私

差分隐私的并行组合原理

条件

这里说的并行指的是，输入数据集的并行。
定义差分隐私算法所保护数据库集合 $D$ 的元素 $x$ 定义在集合 $R$ 上，即 $R = d o m a i n (x)$ ，因此有 $\subseteq R$ 。

令 $\{R_1,R_2,\dots,R_t \}$ 为 $R$ 的一种划分，满足 $R=\displaystyle \bigcap_{i=1}^tR_i,R_i \cap R_j=\emptyset,i \neq j$ 。

例如：差分隐私所保护的数据库中存储关于人的信息数据。其中 $D$ 表示一个具体的数据集作为算法的输入，而 $R$ 表示所有可用来表示一个人的信息集合。假定一种可能的划分是按照性别对数据库中的人进行划分，从而将人分为，男性，女性和未知，分别用 $R_1,R_2,R_3$ 表示每种可能出现的所有人的集合。这些不同性别的人直接没有交集，同时合在一起组成所有的人。根据该划分规则可以将数据集划分为不同的自己，将满足划分子类 $R_i$ 的数据自己为 $D_i$ ，则 $D_i=D \cap R_i$ 。（这种数据集划分规则有种，完备集的赶脚，只是这种划分规则的指定，就很有说法了。）

结论

算法满足 $\varepsilon$ -差分隐私。

重要说明（证明）

$\forall i \neq j,D_i \cap D_j = \emptyset,D'_i \cap D'_j = \emptyset$ ，因此对于 $\displaystyle \sum_{i=1}^m |D_i \bigoplus D'_i|$ 推论如下：
$\displaystyle \sum_{i=1}^m |D_i \bigoplus d'_i|=|\displaystyle \bigcup_{i=1}^m (D_i \bigoplus d'_i)|=|\displaystyle \bigcup_{i=1}^m((D \cap R_i)\bigoplus(D' \cap R_i))|\\=|\displaystyle \bigcup_{i=1}^m((D \bigoplus D') \bigoplus R_i)|=|((D \bigoplus D') \cap \displaystyle \bigcup_{i=1}^m R_i|=|(D \bigoplus D') \cap R|$
因为 $R$ 为元素的定于有 $\subseteq R, D' \subseteq R$ 。因此，上述的推导最终结果为：
$\displaystyle \sum_{i=1}^m|D_i \bigoplus D'_i|=|D \bigoplus D'|=1$