Differentially Private Spatial Decompositions

abstract

最近,差异性隐私已经成为私人数据发布的事实标准。这使得对发布数据的隐私和效用提供强有力的理论保证成为可能。虽然人们对如何在这种保证下发布基于计数和简单函数的数据已经很了解,但仍然需要提供对更多种类的查询有用的通用技术。在本文中,我们专注于空间数据,即任何可由树状结构索引的多维数据。将现有的差分隐私方法直接应用于这种类型的数据只是产生噪音。

我们提出了 "私有空间分解 "类:这些方法适应标准空间索引方法,如四叉树和kd树,以提供数据分布的私有描述。为这种结构配备差异化的隐私需要几个步骤来确保它们提供有意义的隐私保证。各种基本步骤,如选择分割点和描述区域内的点的分布,必须私下进行,而且不同构件的保证必须组成一个整体保证。因此,我们揭露了私有空间分解的设计空间,并分析了一些关键的例子。我们工作的一个主要贡献是为参数设置和输出的后处理提供新技术,以提高查询答案的准确性。我们的实验研究表明,有可能有效地建立这样的分解,并使用它们来私下回答各种查询,并且具有很高的准确性。

intro

近年来,发布不损害数据主体隐私的代表性数据集在数据库界占据了很大的比重。差异性隐私的范式最近已成为受人青睐的定义:它确保从发布的数据中可以了解到的东西,无论是否包括任何特定个人的数据,都不会有很大的差异。这样做的目的是让数据主体放心,他们在这个过程中的参与不会直接导致有关他们的信息被披露。数据管理界现在必须解决的问题是如何提供不同的隐私保证,同时确保结果不仅是私密的,而且是有用的。

考虑一个包含个人在特定时间的位置的数据集,例如,GPS位置或家庭住址。这样的数据可用于许多应用:交通规划、设施定位、政治边界绘制等。更普遍的是,任何属性是有序的并且具有中度到高度cardinality的数据集(如工资等数字属性)都可以被视为空间数据:只要数据可以被树状结构(如B-树、Rtree、kd-树等)索引,它就隐含地被当作空间数据处理。在空间应用中,一个基本的基本要素是要知道有多少个体属于一个给定的区域(一个多维范围查询)。我们的目的是发布信息,使这种查询得到准确的回答,同时对人们的位置给予强有力的隐私保证。

尽管这是一个自然的和重要的问题,但以前的工作中,能够直接应用于这种情况的有限。最直接的方法是在数据上铺设一个精细的网格,并在每个单元内的个体计数上添加来自合适分布的噪声[1]。例如,假设我们在美国领土上用一个10米×10米的方格表示一组107个GPS地点:这就产生了大约1011个条目,其中大部分是0或1。由于噪声的目的是为了掩盖那里是否有个人,所以输出只是大量的噪声计数,几乎没有剩余的信息来准确回答查询。任何涉及到例如1%的区域的查询都包括109个以上的噪声计数,这就转化为一个巨大的误差。

在本文中,我们旨在平衡实用性和效用的要求,同时实现理想的隐私保证。特别是,我们设计了一类不同的隐私空间分解(PSDs)。这些将空间划分为较小的区域,并报告每个区域内的点的统计数据。然后,查询可以通过查询区域与分解的相交来回答。通过进行空间分解,产生具有足够多的点和更均匀的分布的紧凑区域,我们期望查询答案更加准确。

IV. ALLOCATING NOISE PARAMETERS

在本节中,我们重点讨论如何选择噪声参数εi,以便所有树路径都满足合成规则(见第III-C节)。设h表示树的高度;叶具有级别0,根具有级别h。我们假设级别i的所有节点都具有相同的拉普拉斯参数εi(本节末尾讨论了其他选择)。因此,给定ε的总隐私“预算”,我们需要指定εi,0≤i≤h,使得∑εi=ε。我们将εi的选择称为预算策略。目标是最大限度地减少由此产生的查询错误。

Error measure. 对于任何查询Q,设Q~ 表示在私有树上计算的Q的答案。那么Q~ 是一个随机变量,它是真实答案的无偏估计量(因为噪声的平均值为0)。其方差V ar(~Q)是查询准确性的有力指标。与先前的工作[13]、[12]一样,我们将误差度量定义为Err(Q)=V ar(~Q)。查询工作负载Q1的错误。Qs为∑si=1 Err(Qi)/s。

A. Query Processing

与原始(未受干扰)计数上的树不同,PSD可能会向查询Q返回许多不同的结果。

在这里插入图片描述

查询处理示例。 图1显示了查询Q的可能处理,它将节点b、u5、u7、u9、u10和u13中的噪声计数相加。答案是2。然而,如果我们将b的计数替换为其子计数的总和,将u5和u7的总和替换为c的计数与u6、u8的总和之间的差,则答案变为8。这是因为噪声是独立的,并且有多种方式可以将Q表示为节点矩形的并集或差集。添加/减去相应的噪声计数会产生不同的结果。

因此,为了分析Err(Q),我们必须首先描述计算Q~ 的标准方法。设Y是有噪声计数的集合,设U是用于回答Q的节点的集合。则Err(Q)=∑u∈u V ar(Yu),即总方差是节点方差的和。因此,误差随着包括噪声计数的数量而增长到第一近似值。我们采用规范的范围查询处理方法[21],该方法最大限度地减少了添加计数的数量。

方法如下:从根开始,访问对应矩形与Q相交的所有节点u。如果u完全包含在Q中,则将有噪计数Yu添加到答案Q~ ;否则,在u的子对象上递归,直到到达叶子为止。如果一片叶子a与Q相交,但不包含在Q中,则使用一致性假设来估计Ya的一部分应该加到Q~ 中。

设n(Q)是将其计数贡献给~ Q 的节点的数量。对于每个0≤i≤h,设ni是Q中最大包含的i级节点数(即根据上述方法将其计数贡献给~Q),因此n(Q)=∑hi=0 ni。以下结果界定了每个ni,并将指导我们选择噪声参数εi。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值