基础知识 - 差分隐私相关重要知识点详解及差分隐私性质

随风张幔

已于 2022-05-31 14:45:55 修改

阅读量4.4k

点赞数 4

分类专栏：差分隐私文章标签：网络协议网络

于 2022-05-29 09:53:14 首次发布

本文链接：https://blog.csdn.net/qq_45113223/article/details/125026770

版权

差分隐私专栏收录该内容

8 篇文章

订阅专栏

1.数据库之间的距离

对于数据库 x ,它的第一范数为 $\left \| x \right \|_{1}$ ：

$\left \| x \right \|_{1}=\sum_{i=1}^{\left |X \right |}x_{i}$

对于两个数据库 x 和 y ，他们的 $l_{1}$ 距离是 $\left \| x-y \right \|_{1}$

$\left \| x-y \right \|_{1}=\sum_{i=1}^{max\left \{ \left | x \right |,\left | y \right | \right \}}\left | x_{i}-y_{i} \right |$

对于 $\left \| x \right \|_{1}$ ：表示数据库x的大小。计算是数据库x中每一条记录的查询值相加。

对于 $\left \| x-y \right \|_{1}$ ：表示数据库x和y的 $l_{1}$ 距离，也就是不同元素的个数。计算是数据库x、y中每一对记录（最后如果不成对，少的数据库数值用0计）的查询值做差的绝对值相加

2.兄弟数据集（相邻数据集）

兄弟数据集（相邻数据集）定义1：

对于两个数据库 x 和 y ，满足 x 和 y 两个数据库之间的距离为1，即

$\left \| x-y \right \|_{1}=1$

则称 x 和 y 为兄弟数据集

兄弟数据集（相邻数据集）定义2：

注：上面的定义有一些问题，两个数据库一个数据库可以看作另一个数据库增加或删除的话，那这两个数据库距离为1，且 $\left | R\oplus S \right |=1$ ，他们是相邻或兄弟数据集没有问题；但是两个数据库一个数据库可以看作另一个数据库的修改时（此处修改尤指类似将1改0，将0改1），那么他们距离也为1，也是相邻或兄弟数据集，但此时 $\left | R\oplus S \right |=2$ 。所以判断兄弟数据集以定义1为标准，定义2用来加深理解即可。

3.全局敏感度、局部敏感度、平滑敏感度

3.1.全局敏感度

特点：全局敏感度度量在修改（此处必须是距离为1的修改，类似0改1，1改0）、增加或删除一个元组时（一对兄弟数据集）查询结果的最大变化。全局敏感度只与查询函数 $f$ 相关，并且独立于所查询的实际数据集

注：

1.添加行或删除行会导致相邻数据集距离为1，修改行会导致数据集距离为2.

2.当全局灵敏度较大时，必须向输出中添加大量的噪声，以实现差分隐私，这可能会严重损害数据效用。为了解决这个问题，Nissim等人提出了局部灵敏度的思想。

3.2.局部敏感度

特点：局部敏感度度量对于一个给定的要查询数据库D，数据库 $\chi$ 中对于与D构成兄弟数据集的查询结果的最大变化。局部敏感度不仅与查询函数f有关，而且还与给定的数据集d有关

注：

1.全局敏感度考虑的是任意的数据集，这似乎是悲观的，因为我们将在实际的数据集上运行我们的差分隐私机制，我们难道不应该考虑该数据集的邻居吗？将两个数据集中的一个固定为正在查询的实际数据集，并考虑其所有邻居

2.由于噪声的大小与灵敏度成正比，噪声的局部灵敏度要小得多。不幸的是，局部灵敏度不能满足差分隐私的要求，因为噪声大小本身可能会揭示数据库信息。例如，考虑一个数据库，其中的值在0和M>0之间，以及两个相邻的数据库D(0、0、0、0、0、M、M)和D0(0、0、0、0、M、M、M)。设f为中值函数。然后，f(D)=0和f(D0)=0，以及相应的局部灵敏度为LSf(D)=0和LSf(D0)=M。相应地，如果噪声分别根据0和M进行校准，以计算M(D)和M(D0)，那么它们很容易被对手区分。如果采用局部灵敏度，算法M不是（ϵ，δ）差分隐私的。也就是说因为查询的数据集D不可能永远不变，每次改变，局部敏感度就要变，那么就体现出了数据分布的差异。为了弥合差距，提出了一个局部灵敏度的光滑上界来确定所添加的噪声的大小。

3.3.平滑敏感度

定义平滑上界：

其中 $S(D)\leq e^{\beta }S(D')$ 是控制峰值D处的局部敏感度不能比邻居D'处的局部敏感度大太多，因为如果大太多会暴露隐私信息。

所有满足这一定义的函数都可被定义为平滑上界，将局部敏感度带入此函数中则可得到平滑敏感度，进而用于计算噪声大小，平滑上界与局部敏感度的关系如下图所示

定义平滑敏感度：

该机制利用 $e^{-\beta \cdot d(D,D')}$ 进行收缩，距离越远的数据库收缩的越严重。该机制主要是针对峰值D处的邻居D'，如果D'的局部敏感度比D局部敏感度的收缩还小，那么D'处的敏感度就用D局部敏感度的收缩来代替，这样就解决了局部敏感度因变化大而暴露隐私的问题。

当β=0，S(D)成为常数为全局敏感度GSf。当β>0时，全局敏感度是LSf的一个保守上界。LSf可能有多个平滑边界，并且平滑敏感度是符合平滑上界定义的最小边界

平滑敏感度的使用：

平滑敏感度框架，用拉普拉斯噪声实例化，提供 $(\epsilon ,\delta )$ 差分隐私：

注：

1.平滑敏感度背后的想法是使用局部敏感度的"平滑"近似值，而不是局部敏感度本身来校准噪声。平滑量旨在防止在直接使用局部敏感度时可能发生的有关数据集的信息的意外发布。

2.上面的步骤 2 执行平滑：它通过附近数据集与实际数据集距离的指数函数来缩放附近数据集的局部敏感度，然后采用最大缩放的局部敏感度。

效果是，如果x的邻域中存在局部灵敏度的峰值，则该峰值将反映在x平滑敏感度中（因此峰值本身被"平滑"，并且不会显示有关数据集的任何信息）。

3.使用平滑敏感度的缺点：

（1）平滑敏感度总是大于局部敏感度（至少2倍 - 见步骤3），因此需要添加比局部敏感度更多的噪声。

（2）计算平滑敏感度需要找到所有距离为k可能值的最大平滑敏感度，这在计算上可能极具挑战性。

在许多情况下，可以证明考虑少量k的值就足够了（对于许多函数，指数衰减 $e^{-\beta k}$ 迅速压倒了可能不断增长的 $LS_{f}(D')$ 的值）（很多情况下，距离k=0也就是其本身的局部敏感度可能就是最大的），但是对于我们想要使用的每个函数，都必须以平滑的敏感度来证明这样的属性。

3.4.敏感度的选择

实际中敏感度的选择：

全局敏感度一般较大，如果全局敏感度大小可以接受，那我们可以使用全局敏感度；如果全局敏感度过大，我们使用局部敏感度。局部敏感度会与数据分布有很强的关联，故在需要使用局部敏感度时，常采用局部敏感度的平滑上界.

4.差分隐私的一些性质

差分隐私的主要性质：后处理免疫、群组隐私、可组合性

4.1.后处理免疫

后处理免疫（Post-Processing）：

主要是说对于隐私算法 $M$ 的输出，再套上一个函数，不会改变差分隐私的效果。

更正式地说，让 $M$ ： $N^{\left | \chi \right |}\rightarrow R$ 是满足( ε, δ ) - 差分隐私的随机算法，让 $f$ ： $R\rightarrow R'$ 是任意的随机映射，则 $f\circ M$ ： $N^{\left | \chi \right |}\rightarrow R'$ 是( ε, δ ) - 差分隐私的。

后处理免疫证明：

对于随机映射，可以分解为确定性函数的凸组合，由于差分隐私的凸组合是差分隐私的，证毕。

4.2.群组隐私

群组隐私（Group Privacy）

性质是说随着数据库距离增大，差分隐私保证的强度是优雅地线性下降的。正式地说就是：

定理 $M$ 是( ε, 0 ) - 差分隐私的随机算法，对于群组内所有 $\left \| x-y \right \|_{1}\leq k$ 的数据库，对所有 $S\subseteq Range(M)$ ，有

也就是说 $M$ 是( kε, 0 ) - 差分隐私的。