Differentially Private Spatial Decompositions

summermoonlight

已于 2023-05-07 14:33:36 修改

阅读量130

点赞数

分类专栏：论文阅读文章标签：差分隐私

于 2023-02-12 14:55:26 首次发布

本文链接：https://blog.csdn.net/qq_45034517/article/details/128994592

版权

论文阅读专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文章探讨了在差异性隐私框架下处理空间数据的挑战，提出了一种名为“私有空间分解”的方法，适用于四叉树和kd树等空间索引结构。这种方法旨在提供数据分布的私有描述，同时优化查询的准确性。文章详细介绍了如何平衡隐私和效用，以及如何选择噪声参数以降低查询误差。

摘要由CSDN通过智能技术生成

abstract

最近，差异性隐私已经成为私人数据发布的事实标准。这使得对发布数据的隐私和效用提供强有力的理论保证成为可能。虽然人们对如何在这种保证下发布基于计数和简单函数的数据已经很了解，但仍然需要提供对更多种类的查询有用的通用技术。在本文中，我们专注于空间数据，即任何可由树状结构索引的多维数据。将现有的差分隐私方法直接应用于这种类型的数据只是产生噪音。

我们提出了 "私有空间分解 "类：这些方法适应标准空间索引方法，如四叉树和kd树，以提供数据分布的私有描述。为这种结构配备差异化的隐私需要几个步骤来确保它们提供有意义的隐私保证。各种基本步骤，如选择分割点和描述区域内的点的分布，必须私下进行，而且不同构件的保证必须组成一个整体保证。因此，我们揭露了私有空间分解的设计空间，并分析了一些关键的例子。我们工作的一个主要贡献是为参数设置和输出的后处理提供新技术，以提高查询答案的准确性。我们的实验研究表明，有可能有效地建立这样的分解，并使用它们来私下回答各种查询，并且具有很高的准确性。

intro

近年来，发布不损害数据主体隐私的代表性数据集在数据库界占据了很大的比重。差异性隐私的范式最近已成为受人青睐的定义：它确保从发布的数据中可以了解到的东西，无论是否包括任何特定个人的数据，都不会有很大的差异。这样做的目的是让数据主体放心，他们在这个过程中的参与不会直接导致有关他们的信息被披露。数据管理界现在必须解决的问题是如何提供不同的隐私保证，同时确保结果不仅是私密的，而且是有用的。

考虑一个包含个人在特定时间的位置的数据集，例如，GPS位置或家庭住址。这样的数据可用于许多应用：交通规划、设施定位、政治边界绘制等。更普遍的是，任何属性是有序的并且具有中度到高度cardinality的数据集（如工资等数字属性）都可以被视为空间数据：只要数据可以被树状结构（如B-树、Rtree、kd-树等）索引，它就隐含地被当作空间数据处理。在空间应用中，一个基本的基本要素是要知道有多少个体属于一个给定的区域（一个多维范围查询）。我们的目的是发布信息，使这种查询得到准确的回答，同时对人们的位置给予强有力的隐私保证。

尽管这是一个自然的和重要的问题，但以前的工作中，能够直接应用于这种情况的有限。最直接的方法是在数据上铺设一个精细的网格，并在每个单元内的个体计数上添加来自合适分布的噪声[1]。例如，假设我们在美国领土上用一个10米×10米的方格表示一组107个GPS地点：这就产生了大约1011个条目，其中大部分是0或1。由于噪声的目的是为了掩盖那里是否有个人，所以输出只是大量的噪声计数，几乎没有剩余的信息来准确回答查询。任何涉及到例如1%的区域的查询都包括10⁹个以上的噪声计数，这就转化为一个巨大的误差。

在本文中，我们旨在平衡实用性和效用的要求，同时实现理想的隐私保证。特别是，我们设计了一类不同的隐私空间分解（PSDs）。这些将空间划分为较小的区域，并报告每个区域内的点的统计数据。然后，查询可以通过查询区域与分解的相交来回答。通过进行空间分解，产生具有足够多的点和更均匀的分布的紧凑区域，我们期望查询答案更加准确。

IV. ALLOCATING NOISE PARAMETERS

在本节中，我们重点讨论如何选择噪声参数εi，以便所有树路径都满足合成规则（见第III-C节）。设h表示树的高度；叶具有级别0，根具有级别h。我们假设级别i的所有节点都具有相同的拉普拉斯参数εi（本节末尾讨论了其他选择）。因此，给定ε的总隐私“预算”，我们需要指定εi，0≤i≤h，使得∑εi=ε。我们将εi的选择称为预算策略。目标是最大限度地减少由此产生的查询错误。

Error measure. 对于任何查询Q，设Q~ 表示在私有树上计算的Q的答案。那么Q~ 是一个随机变量，它是真实答案的无偏估计量（因为噪声的平均值为0）。其方差V ar（~Q）是查询准确性的有力指标。与先前的工作[13]、[12]一样，我们将误差度量定义为Err（Q）=V ar（~Q）。查询工作负载Q1的错误。Qs为∑si=1 Err（Qi）/s。

A. Query Processing

与原始（未受干扰）计数上的树不同，PSD可能会向查询Q返回许多不同的结果。

在这里插入图片描述

查询处理示例。 图1显示了查询Q的可能处理，它将节点b、u5、u7、u9、u10和u13中的噪声计数相加。答案是2。然而，如果我们将b的计数替换为其子计数的总和，将u5和u7的总和替换为c的计数与u6、u8的总和之间的差，则答案变为8。这是因为噪声是独立的，并且有多种方式可以将Q表示为节点矩形的并集或差集。添加/减去相应的噪声计数会产生不同的结果。

因此，为了分析Err（Q），我们必须首先描述计算Q~ 的标准方法。设Y是有噪声计数的集合，设U是用于回答Q的节点的集合。则Err（Q）=∑u∈u V ar（Yu），即总方差是节点方差的和。因此，误差随着包括噪声计数的数量而增长到第一近似值。我们采用规范的范围查询处理方法[21]，该方法最大限度地减少了添加计数的数量。

方法如下：从根开始，访问对应矩形与Q相交的所有节点u。如果u完全包含在Q中，则将有噪计数Yu添加到答案Q~ ；否则，在u的子对象上递归，直到到达叶子为止。如果一片叶子a与Q相交，但不包含在Q中，则使用一致性假设来估计Ya的一部分应该加到Q~ 中。

设n（Q）是将其计数贡献给~ Q 的节点的数量。对于每个0≤i≤h，设ni是Q中最大包含的i级节点数（即根据上述方法将其计数贡献给~Q），因此n（Q）=∑hi=0 ni。以下结果界定了每个ni，并将指导我们选择噪声参数εi。

在这里插入图片描述