1.差分隐私的保护逻辑
我们通过一个例子来介绍一下差分隐私的工作。
假设现在有一个婚恋数据库,2个单身8个已婚。查询函数是查询单身人数。刚开始的时候查询发现,2个人单身。现在张三跑去登记了自己婚姻状况。攻击者一查,发现有3个人单身。显然攻击者可以得到张三是单身的信息。
差分隐私解决机制的方式:对查询函数添加部分噪声。应用差分隐私添加噪声后: 张三跑去登记自己的婚姻状况后,攻击者一查,发现有2.7个人单身。此时,攻击者就不能知道有多少人单身,从而不知道张三是否是单身了。
显然,差分隐私是通过对数据进行添加均值为0的噪声来将数据库的查询结果从具体数值变成随机变量来保护隐私。
那么,差分隐私的目的就可以表示为两个随机变量的概率分布尽可能的接近。在最坏的情况下,差分隐私的保证可以表示为两个相差一条数据的数据库的数据分布保持相似。 显然,如何衡量数据分布的相似性是差分隐私的重要前提,也是差分隐私发展的一个重要理论方向。瑞丽差分隐私就是从这里推演出来的。
2.瑞丽差分隐私定义
差分隐私本质上是保持两个分布近似,但如何衡量相似性呢,差分隐私使用的是最大熵来衡量,而RDP引入的是瑞丽熵。最大熵实际上是瑞丽熵的特例,是α趋向于无穷时的情况。RDP通过瑞丽熵的概念来进一步推导得到了更加宽泛的定义。
具体来说,RDP引入一个瑞丽熵的α值来拓展传统差分隐私的概念,此时P和Q两个分布的差异可以通过积分来推导出,即瑞丽散度:
。
3.瑞丽差分隐私的噪声机制推导(以拉普拉斯为例)
其他的机制论文里也给了,如下:
4.高斯差分隐私(FDP)
RDP本质上是通过瑞丽熵来衡量两个分布的差异,但实际上可以直接从两个分布进行假设检验的难度来衡量差异。 Gaussian differential privacy本质上是通过tradeoff函数来近一步放宽差分隐私的定义。因为任何一组(ε, δ)-DP都对应着某一个tradeoff函数。具体定义如下: