介绍几种在差分隐私学习当中经常碰到的查询。图片引用The Complexity of Differential Privacy.
设数据库元素的取值范围为
χ
\chi
χ,数据库的选取空间为
χ
n
\chi^n
χn,某个数据库用
x
x
x表示,查询用
q
q
q表示,
q
(
x
)
q(x)
q(x)表示对数据库
x
x
x进行
q
q
q查询。
可以理解为有这么一个数据库,存储n个点的二维坐标。那么
χ
\chi
χ这里为
R
2
\R^2
R2,n个点组成的二维坐标集合为
χ
n
\chi^n
χn,这个数据库
x
∈
χ
n
x\in \chi^n
x∈χn是这特定的n个点组成的。
Counting Query(计数查询)
最基本的counting query如下所示,简而言之是求某个特征的数据元素在数据库当中的占比是多少?比如有一个数据库保存用户的姓名以及性别,我query一下想知道这个数据库男性占比是多少,这就是一个counting query,对于某个人性别的
q
(
x
i
)
q(x_i)
q(xi)要么是0要么是1。
另外counting query还有很多变种,如下所示。
直方图(Histograms)相当于对于所有数据库元素特征进行counting query,相当于得到一个分布。
阈值(CDFs)相当于查有多少数据库中的元素,某个属性大于某个给定的阈值。
Linear Query(线性查询)
Linear query与counting query区别在于,前者映射到实值
∈
[
0
,
1
]
\in[0,1]
∈[0,1],后者映射到
{
0
,
1
}
\{0,1\}
{0,1}。并且注意到所有linear query都可以写成点积的形式。平均值查询,图中S,T割查询,都是所谓的线性查询,一般研究比较多的也是线性查询。
\
Reference
Dwork, Cynthia and Roth, Aaron. The Algorithmic Foundations of Differential Privacy.
Vadhan, Salil. The Complexity of Differential Privacy.
By BRB 2023.04.21