**
差分隐私的学习
标准差分隐私
1.**KL散度一般指的是距离,是用来衡量两个概率分布的相似性的标准,概率分布越接近,则越相似,距离相近;概率分布越不相同,则越不相似,距离越远。差分隐私采用KL散度来衡量二者分布之间的差异。然后将二者差异限制在一个范围内,不能让他们无限增长下去。
2.隐私预算越小,隐私保护程度就越大,那么与之相对的是引入的噪声就越多。加入的噪声很大的情况下,那么精度就会下降。
3.对于应用差分隐私的算法,会总体设置一个隐私预算,每访问一次数据,就会扣除一些预算,当预算用完,数据就无法再访问。(这里的含义:如果是固定的隐私预算,每次攻击者获得的有效信息是20%,两次攻击者可以推出的有效信息是25%,三次可能推出的有效信息为30%,以此不变的话,那么信息就会全部被攻击者获得。所以会设置一个隐私预算,每访问一次,隐私预算就会变小,保护程度也会随着增大,到隐私预算消耗完之后,他的访问也就停止了。隐私预算设置的是一个阈值,追踪它的每次消耗的隐私预算,然后将隐私预算累加,达到所设置的阈值或者是达到设定的迭代次数,访问者就不能在访问。
)
松弛差分隐私
1.标准的差分隐私太过严格,于是引入了松弛差分隐私
相对于原始公式来说,增加了一个松弛项,也就是说我们可以容忍一个较小的距离。
如图所示,原本的距离并不能限制住,所以增加的一个松弛项也就是一个小距离去控制他的边界。δ适用于限制模型行为任意改变的概率,通常设置为一个小的常数,推荐设置小于训练数据集大小的倒数。
参考链接:https://zhuanlan.zhihu.com/p/139114240
差分隐私的敏感度
1.敏感度是指决定加入噪声大小的关键参数,指删除数据集中任一记录对查询结果造成的最大改变(数据集中删除任意一条记录对查询结果产生的最大影响)。敏感度分为全局敏感度和局部敏感度。
2.对于查询f:D->R,以及相邻数据集D和D‘,f的敏感度Δf定义为
Δf=maxD,D’||f(D)-f(D’)||
敏感度Δf仅与查询f的类型有关,它衡量了相邻数据集上的查询结果之间的最大差异。
3.敏感度分为全局敏感度和局部敏感度
4.全局敏感度
设有函数f:D->R,对于任意相邻数据集D和D’,全局敏感度为GSf=maxD,D’||f(D)-f(D‘)||1,因为是任意相邻数据集,所以本质上全局敏感度是由函数本身决定的。
5.局部敏感度
设有函数f:D->R,对于给定数据集D和D的相邻数据集D‘,局部敏感度为LSf=maxD||f(D)-f(D’)||1.因为数据集是给定的,所以局部敏感度是由数据集D的值决定的,也能在一定程度上体现数据集的数据分布特征。局部敏感度通常比全局敏感度小的多。因此添加的噪声量会小很多,数据的可用性相对高很多。
6.敏感度越大,所加的噪声就越大。敏感度越小,所加的噪声就越小。
参考博客:https://blog.csdn.net/Kenji_Shinji/article/details/126720793
中心化差分隐私
中心化差分隐私认为第三方(服务端时可信的),加工的结果和加工的过程都要满足中心化差分隐私
中心化差分隐私的性质:
1.序列组合性
跑k个中心化差分隐私算法,每一个使用ϵi,结果满足Σϵi-CDP(4,3,2 总和4+3+2=9)
2.并行组合性
把一个数据集D划分为多个数据子集,每个运行一个ϵi-CDP算法,最大的结果满足max(ϵi)-CDP。(4,3,2. 选择4)
3.后置处理
不需要消耗隐私预算
本地化差分隐私
本地化差分隐私是不相信服务端的(中心化差分隐私和本地化差分隐私是两个极端,一个认为服务端是可信的,一个认为服务端是不可信的)
本地化差分隐私的性质与中心化差分隐私的性质是相同的,但是没有直接的并行组合。是因为每个客户端都有一个数据记录,无法被划分。
CDP与LDP之间的差异
1.定义上,CDP主要是集中于相邻的两个数据集,LDP主要是集中于数据(两个值)之间
2.中心化差分隐私中的噪声是Ω(1),本地化差分隐私噪声是Ω(n),因为每一个都需要。形式化结构是中心化Ω(1/n),本地化(1/根号下n),很明显,LDP噪声是比较大的。
噪声类别
高斯机制
高斯机制主要是针对数值型查询。针对地是松弛差分隐私。
参考博客:https://zhuanlan.zhihu.com/p/442329399
1.查询函数敏感度:
l2-sensitivity:查询函数f的敏感度表示相邻数据集输出的最大的l2范数。
拉普拉斯
拉普拉斯机制主要是针对数值型查询,也就是往查询结果中加一个服从拉普拉斯分布的噪声(就是在拉普拉斯分布上采样)。拉普拉斯分布是一个连续分布。针对地是严格差分隐私
μ是位置参数,b是尺度参数。
这里的μ=0,b=Δf/ε。这里的Δf指的是上述的全局敏感度或者是局部敏感度。
拉普拉斯地分布是针对噪声分布计算的。拉普拉斯满足差分隐私的证明:
参考博客https://zhuanlan.zhihu.com/p/357909097
指数机制
1.指数机制与前两种机制不同,前面的两种都是简单的对输出的数值结果加入噪声实现差分隐私,而对于非数值型数据而言,他的输出是一组离散数据中的元素{R1,R2,R3,Rn}
2.指数机制的整体思想是当接收到一个查询之后,不是确定性的输出一个Ri结果,而是以一定的概率值返回结果,从而实现差分隐私。这个概率值则是由打分函数确定,得分高的输出概率高,得分低的输出概率低。
参考文章:https://zhuanlan.zhihu.com/p/144318152