差分隐私中的三种机制
在应用差分隐私进行隐私保护中,需要处理的数据主要分为两大类,一类是数值型
的数据,比如说数据集中已婚人士的数量;另外一类是非数值型
的数据,比如喜欢人数最多的颜色。这两者,主体分别是数量(连续数据)
和颜色(离散数据)
- 对于
数值型
的数据,一般采用Laplace
或者高斯
机制,对得到数值结果加入随机噪声即可实现差分隐私; - 而对于
非数值型
的数据,一般采用指数
机制并引入一个打分函数
,对每一种可能的输出都得到一个分数,归一化之后作为查询返回的概率值。比如现在有,将数量作为打分函数
,那么得到对应输出概率为,当接收到一个查询之后,就以对应的概率值返回结果。
下面分别从数值型和非数值型两个方面对三种机制进行介绍。
1 - 数值型查询
1.1 Laplace机制
定义-敏感度
首先定义一下敏感度,它代表的意思是对于两个兄弟数据集(只相差一个元素)
,一个查询函数
最大的变化范围,比如查询数量,敏感度就是1。
敏感度是和查询函数相关的,而这里的定义主要是为了后面满足差分隐私的证明。
理论-Laplace机制
其中,
表示的是查询函数,
表示的是Laplace随机噪声,
表示的是最后的返回结果。