翻译--USE CASES OF DIFFERENTIAL PRIVACY（差分隐私用例）

在此博客文章中，我们将介绍从生物医学数据集分析到地理位置定位的差分隐私（DP）的一些用例。有关为SG OpenMined Explorers研究组创建的与该帖子相关的幻灯片，请参阅@Ria 的“差分性隐私和联邦学习用例”。

让我们从将差分隐私应用于基因组学开始。

基因组学

机器学习对基因组学应用具有重要意义，例如对于精密医学（即针对患者的临床/遗传特征进行定制的治疗）1以及检测从不同人群中收集的数据中的细微见解2。

鉴于快速创建了许多基因组数据集以促进这些应用程序的统计分析和机器学习研究，此类应用程序的主要隐私风险之一就是使用辅助信息的链接攻击。链接攻击涉及利用公共数据库中的信息与敏感数据集（通常被匿名/去标识化以审查数据集）重叠的情况。稍后我们将介绍去标识和k匿名化。

有许多图示说明的联动攻击示例，例如，在不明身份的医院记录上部署了联动攻击，并通过选民登记数据库成功找到了马萨诸塞州州长的患者档案2。

此外，请考虑以下引用：

“已经证明，即使是次要的等位基因频率（MAF）之类的粗略信息也可以揭示给定的个体是否属于研究人群，从而有可能揭示该个体的敏感临床表型。” 2

鉴于遗传歧视，这是令人担忧的，因为个体可能具有遗传突变，因此可以对他们进行不同的对待1。

该问题的先前解决方案包括1：

去识别，这涉及从数据中删除唯一的标识符，例如姓名，电话号码，甚至是车辆标识符。这种方法的缺点是，您可能会丢失对分析有用的有意义的信息。
K匿名化，涉及从已发布的数据中删除信息，直到一个数据记录与至少（k-1）个其他记录属于相同的等效类。这种方法的缺点是，它不提供正式的隐私保证，并且容易受到链接攻击等攻击。

与差分隐私1相关的优势：

防止链接攻击
启用两种类型的设置：
- 交互式设置，您可以在其中查询非公共数据库-答案充满噪音或仅发布摘要统计信息
- 非交互设置，在公共数据中注入噪声

与DP有关的此应用程序的缺点：

平衡隐私与实用程序（即，考虑结果的准确性）。
DP方法仅允许使用预设查询，例如：“返回p值”，“前K个SNP的返回位置”

优步用户数据

在讨论用例之前，让我们快速定义查询的不同类型。

灵敏度的定义9：

查询的敏感性：数据库更改时，查询量的结果也会更改。
全局敏感性：在任意两个相邻数据库上查询结果的最大差异。
局部敏感度：真实数据库中查询结果与该数据库任何邻居之间的最大差异。本地敏感度通常比全局敏感度低得多，因为它是单个真实数据库的属性，而不是所有可能的数据库的属性。考虑局部灵敏度时，平滑功能很重要。

许多差分隐私机制都是基于全局敏感度，因此不能一概而论地归结为联接（因为它们可以乘以输入记录）。

使用局部敏感性的技术通常提供更大的实用性，但是在计算上是不可行的。

用例

对于此用例，让我们考虑一个Uber的示例应用程序-确定用户9的平均行程距离。较小的城市可能出行次数较少，因此个人出行可能会影响分析，而差分隐私可以帮助解决这一问题。

根据上一节的注释，考虑到基于全局敏感度的DP机制不能普遍适用于联接，考虑本地敏感度非常有价值。下图来自“向SQL查询寻求实用的差分隐私” 9的图像，其中显示了利用连接的大量查询，这激发了对利用局部敏感性的方法的需求。

旁注：我强烈建议阅读论文“迈向SQL查询的实用差分隐私” 9（参考文献中的链接），以进行类似的查询分析以及弹性灵敏度的详细定义。

作者提出弹性敏感度作为利用局部敏感度的一种方法。该方法的目的是“使用关于真实数据库中连接键的频率的预先计算的指标，对查询中每个连接的影响进行建模”。请参见下表，以了解弹性敏感度与其他DP机制之间的比较-我们看到弹性敏感度支持不同类型的等值连接，“等价于两个关系中一列的值相等为条件的连接”。

作者演示了利用弹性灵敏度的FLEX系统，如下图所示。以下是本文所述的好处：

提供（ε，δ）差分隐私，无需与数据库进行交互。
只需要对查询进行静态分析和对查询结果进行后处理。
扩展到大数据，同时产生最小的性能开销。

医疗保健+物联网：心率监测

现在让我们转到涉及可穿戴技术和物联网的医疗保健应用程序。这里的用例是通过诸如智能手表之类的设备收集以固定间隔（例如，收集在工作时间内每分钟测量的心率）3测量的健康数据流。

在相应论文中描述的系统管道中，使用“本地差分隐私”来扰乱数据，在此情况下，数据贡献者会增加噪声。根据下面显示的管道，用户的智能手表会识别数据流中的显着点，然后用噪声干扰它们，然后将嘈杂的数据发送到服务器以进行重建和存储。

生物医学数据集分析

对于下一个用例，我们将考虑为生物医学应用处理大数据，并提供不同的隐私保证。DAMSEN 4是一个支持多种数据分析任务的差分隐私保证的系统，并利用有效的查询优化引擎来实现高精度和低隐私成本。

如下图所示，DAMSEN 4为数据分析任务提供了不同的隐私，例如直方图，长方体，机器学习算法（例如线性和逻辑回归，可能会推广到神经网络）以及聚类任务。

注意：在进行适当查询的数据分析任务中，直方图不代表数据分布的传统可视化。直方图是一种特殊类型的查询，涉及将数据点分类到存储桶11中。您可以认为此类查询类似于Pandas的groupby（）函数，但具有更多功能。长方体是一项分析任务，涉及多个汇总数据集和表格- 有关详细示例，请参阅DAMSEN论文4。

潜在的项目构想：确保为可视化提供不同的隐私保证。我在该主题上发现的两个资源是“个人数据的隐私感知可视化” 12和“可视化差异化私有数据的挑战” 13。

有趣的是，DAMSEN包含了一种压缩机制，这对于最小化DP所需的噪声量很有用：

“ CM不会像在压缩感测中那样对原始数据进行编码，而不会给原始数据添加噪声；然后，CM将噪声添加到编码数据中，对结果进行压缩感测，然后将其发布。由于转换后的数据经过高度压缩，因此它们所需要的噪声要少得多，以实现差分隐私。” 5

减少噪音非常重要，因为我们希望确保DP机制所干扰的查询结果仍尽可能地准确。

分析电子病历

对于此用例，我们考虑具有同态加密10的 DP扰动直方图。下图描述了论文10中提出的整个系统：

我们可以看到，该系统涉及研究人员，可信赖的第三方以及云服务提供商，它们是在框架中各自具有特定角色的实体。

下图描述了所建议框架的概念。我们可以看到用于密钥分发和安全直方图生成的同态加密组件所需的框架部分。就框架的DP部分而言，系统将加密的拉普拉斯噪声添加到直方图每个bin的计数中，直方图计算的敏感度为1。

如前所述，直方图是一种查询类型，其结果可用于训练模型。

如下图所示，作者发现，虽然在原始数据集上训练的分类器获得了最高的性能，但在基于DP扰动的V最优直方图采样的数据集上训练的作者分类器与在数据集上训练的分类器相似基于无噪声的V最佳直方图进行采样。当隐私预算减少到小于0.1时，会发生此发现的例外情况，这导致大量噪声添加到数据中，AUC下降，查询丢失率增加。

因此，作者的结论之一是需要谨慎选择隐私预算。他们还解释说，在讨论的实体之间的信息交换方面，其安全模型可防止各种泄漏-有关更多详细信息，请参见本文。

地理位置

微软的PrivTree系统6利用差分隐私来掩盖个人在其地理位置数据库中的位置。该方法包括将地图分为多个子区域，然后对每个子区域应用位置扰动，如下图所示。在给定原始数据和一些其他参数（要使用的拉普拉斯噪声的大小，用于确定是否应该发生节点分裂的阈值等）的情况下，他们的系统可以实现差分私有算法并输出有噪数据适用于几乎所有类型的位置数据。