瑞丽差分隐私介绍（Rényi Differential Privacy，RDP）

枫锦旧曾谙

已于 2023-07-17 15:50:34 修改

阅读量6k

点赞数 9

分类专栏：差分隐私文章标签：概率论

于 2022-07-14 20:27:50 首次发布

本文链接：https://blog.csdn.net/ruiqu1650914788/article/details/125791917

版权

差分隐私专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了差分隐私的概念，通过一个婚恋数据库的例子解释了其保护逻辑。差分隐私通过在查询结果中添加噪声来防止数据泄露。接着，介绍了瑞丽差分隐私（RDP），它是利用瑞丽熵来衡量分布的相似性，拓展了传统差分隐私的定义。RDP通过瑞丽散度量化两个分布的差异，并提供了更宽泛的隐私保护。此外，还提及了高斯差分隐私（FDP），它通过tradeoff函数进一步放宽差分隐私的约束。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.差分隐私的保护逻辑

我们通过一个例子来介绍一下差分隐私的工作。

假设现在有一个婚恋数据库，2个单身8个已婚。查询函数是查询单身人数。刚开始的时候查询发现，2个人单身。现在张三跑去登记了自己婚姻状况。攻击者一查，发现有3个人单身。显然攻击者可以得到张三是单身的信息。

差分隐私解决机制的方式：对查询函数添加部分噪声。应用差分隐私添加噪声后：张三跑去登记自己的婚姻状况后，攻击者一查，发现有2.7个人单身。此时，攻击者就不能知道有多少人单身，从而不知道张三是否是单身了。

显然，差分隐私是通过对数据进行添加均值为0的噪声来将数据库的查询结果从具体数值变成随机变量来保护隐私。

那么，差分隐私的目的就可以表示为两个随机变量的概率分布尽可能的接近。在最坏的情况下，差分隐私的保证可以表示为两个相差一条数据的数据库的数据分布保持相似。显然，如何衡量数据分布的相似性是差分隐私的重要前提，也是差分隐私发展的一个重要理论方向。瑞丽差分隐私就是从这里推演出来的。

2.瑞丽差分隐私定义

差分隐私本质上是保持两个分布近似，但如何衡量相似性呢，差分隐私使用的是最大熵来衡量，而RDP引入的是瑞丽熵。最大熵实际上是瑞丽熵的特例，是α趋向于无穷时的情况。RDP通过瑞丽熵的概念来进一步推导得到了更加宽泛的定义。

具体来说，RDP引入一个瑞丽熵的α值来拓展传统差分隐私的概念，此时P和Q两个分布的差异可以通过积分来推导出，即瑞丽散度：

。

3.瑞丽差分隐私的噪声机制推导（以拉普拉斯为例）

其他的机制论文里也给了，如下：

4.高斯差分隐私（FDP）

RDP本质上是通过瑞丽熵来衡量两个分布的差异，但实际上可以直接从两个分布进行假设检验的难度来衡量差异。 Gaussian differential privacy本质上是通过tradeoff函数来近一步放宽差分隐私的定义。因为任何一组(ε, δ)-DP都对应着某一个tradeoff函数。具体定义如下：