差分隐私入门

Mp4r8672v

已于 2022-09-17 10:31:32 修改

阅读量1.9k

点赞数 4

文章标签：人工智能算法机器学习

于 2022-09-17 10:30:23 首次发布

本文链接：https://blog.csdn.net/Mp4r8672v/article/details/126884723

版权

**

差分隐私的学习

标准差分隐私

1.**KL散度一般指的是距离，是用来衡量两个概率分布的相似性的标准，概率分布越接近，则越相似，距离相近；概率分布越不相同，则越不相似，距离越远。差分隐私采用KL散度来衡量二者分布之间的差异。然后将二者差异限制在一个范围内，不能让他们无限增长下去。
2.隐私预算越小，隐私保护程度就越大，那么与之相对的是引入的噪声就越多。加入的噪声很大的情况下，那么精度就会下降。
3.对于应用差分隐私的算法，会总体设置一个隐私预算，每访问一次数据，就会扣除一些预算，当预算用完，数据就无法再访问。（这里的含义：如果是固定的隐私预算，每次攻击者获得的有效信息是20%，两次攻击者可以推出的有效信息是25%，三次可能推出的有效信息为30%，以此不变的话，那么信息就会全部被攻击者获得。所以会设置一个隐私预算，每访问一次，隐私预算就会变小，保护程度也会随着增大，到隐私预算消耗完之后，他的访问也就停止了。隐私预算设置的是一个阈值，追踪它的每次消耗的隐私预算，然后将隐私预算累加，达到所设置的阈值或者是达到设定的迭代次数，访问者就不能在访问。
）
在这里插入图片描述

松弛差分隐私

1.标准的差分隐私太过严格，于是引入了松弛差分隐私
在这里插入图片描述
相对于原始公式来说，增加了一个松弛项，也就是说我们可以容忍一个较小的距离。

如图所示，原本的距离并不能限制住，所以增加的一个松弛项也就是一个小距离去控制他的边界。δ适用于限制模型行为任意改变的概率，通常设置为一个小的常数，推荐设置小于训练数据集大小的倒数。

参考链接：https://zhuanlan.zhihu.com/p/139114240

差分隐私的敏感度

1.敏感度是指决定加入噪声大小的关键参数，指删除数据集中任一记录对查询结果造成的最大改变（数据集中删除任意一条记录对查询结果产生的最大影响）。敏感度分为全局敏感度和局部敏感度。
2.对于查询f：D->R,以及相邻数据集D和D‘，f的敏感度Δf定义为
Δf=maxD，D’||f(D)-f(D’)||
敏感度Δf仅与查询f的类型有关，它衡量了相邻数据集上的查询结果之间的最大差异。
3.敏感度分为全局敏感度和局部敏感度
4.全局敏感度
设有函数f:D->R,对于任意相邻数据集D和D’，全局敏感度为GSf=maxD,D’||f（D）-f（D‘）||1,因为是任意相邻数据集，所以本质上全局敏感度是由函数本身决定的。
5.局部敏感度
设有函数f:D->R,对于给定数据集D和D的相邻数据集D‘，局部敏感度为LSf=maxD||f(D)-f(D’)||1.因为数据集是给定的，所以局部敏感度是由数据集D的值决定的，也能在一定程度上体现数据集的数据分布特征。局部敏感度通常比全局敏感度小的多。因此添加的噪声量会小很多，数据的可用性相对高很多。
6.敏感度越大，所加的噪声就越大。敏感度越小，所加的噪声就越小。
参考博客：https://blog.csdn.net/Kenji_Shinji/article/details/126720793

中心化差分隐私

中心化差分隐私认为第三方(服务端时可信的)，加工的结果和加工的过程都要满足中心化差分隐私
在这里插入图片描述
中心化差分隐私的性质：
1.序列组合性
跑k个中心化差分隐私算法，每一个使用ϵi，结果满足Σϵi-CDP（4，3，2 总和4+3+2=9）
2.并行组合性
把一个数据集D划分为多个数据子集，每个运行一个ϵi-CDP算法，最大的结果满足max(ϵi)-CDP。（4，3，2. 选择4）
3.后置处理
不需要消耗隐私预算

本地化差分隐私

本地化差分隐私是不相信服务端的（中心化差分隐私和本地化差分隐私是两个极端，一个认为服务端是可信的，一个认为服务端是不可信的）
在这里插入图片描述

本地化差分隐私的性质与中心化差分隐私的性质是相同的，但是没有直接的并行组合。是因为每个客户端都有一个数据记录，无法被划分。

CDP与LDP之间的差异

1.定义上，CDP主要是集中于相邻的两个数据集，LDP主要是集中于数据（两个值）之间
2.中心化差分隐私中的噪声是Ω（1），本地化差分隐私噪声是Ω（n)，因为每一个都需要。形式化结构是中心化Ω（1/n)，本地化（1/根号下n),很明显，LDP噪声是比较大的。

噪声类别

高斯机制

高斯机制主要是针对数值型查询。针对地是松弛差分隐私。
参考博客：https://zhuanlan.zhihu.com/p/442329399
1.查询函数敏感度：
l2-sensitivity:查询函数f的敏感度表示相邻数据集输出的最大的l2范数。
在这里插入图片描述

拉普拉斯

拉普拉斯机制主要是针对数值型查询，也就是往查询结果中加一个服从拉普拉斯分布的噪声（就是在拉普拉斯分布上采样）。拉普拉斯分布是一个连续分布。针对地是严格差分隐私
在这里插入图片描述
μ是位置参数，b是尺度参数。

这里的μ=0，b=Δf/ε。这里的Δf指的是上述的全局敏感度或者是局部敏感度。
拉普拉斯地分布是针对噪声分布计算的。拉普拉斯满足差分隐私的证明：
参考博客https://zhuanlan.zhihu.com/p/357909097

指数机制

1.指数机制与前两种机制不同，前面的两种都是简单的对输出的数值结果加入噪声实现差分隐私，而对于非数值型数据而言，他的输出是一组离散数据中的元素{R1，R2，R3，Rn}
2.指数机制的整体思想是当接收到一个查询之后，不是确定性的输出一个Ri结果，而是以一定的概率值返回结果，从而实现差分隐私。这个概率值则是由打分函数确定，得分高的输出概率高，得分低的输出概率低。
在这里插入图片描述
参考文章：https://zhuanlan.zhihu.com/p/144318152