（翻译）相关差分隐私：将信息隐藏在non-IID数据集中（三）

最新推荐文章于 2023-12-18 19:17:09 发布

Enjoyist

最新推荐文章于 2023-12-18 19:17:09 发布

阅读量1.9k

点赞数

分类专栏：差分隐私初探文章标签：差分隐私相关差分隐私相关敏感等级 non-IID 翻译

差分隐私初探专栏收录该内容

2 篇文章 1 订阅

订阅专栏

第五部分相关迭代机制

即使相关敏感度相比于全局敏感减少了噪音，当处理大量的查询时，有隐私预算需要分为更小的部分，查询结果仍然引入了大量的噪音。当记录之间的关机很紧密时噪音很大，采用一个基于迭代的发布机制来限制查询结果中所添加的噪音。

基于迭代的发布机制首先是被Hardt等人提出来的，他们通过迭代的更新数据库产生了一个数据库序列来回答所有的查询。当一个给定的查询发现现在的数据库（多次迭代后）与真实的数据库差别很大时，就会在下一轮中更新当前的数据库。这种机制的优势是节省了隐私预算并且在明对大量查询时减少了噪声。因此，用这种机制来发布相关数据即集是合适的。

在这部分，我们提出了一个相关迭代机制来回答一系列的相关数据库查询。我们首先对这个算法做了概述，然后详细的介绍了该算法运行的细节。

A.相关迭代机制总览

CIM旨在通过迭代更新的方式来发布数据集的查询结果。在这种方式中，数据集用长度为N的直方图x来表示。用t代表迭代的轮数。给定一个查询集Q并且在每一轮中都进行查询Qt。我们把真实的结果记为at，则添加噪音的结果为Q(t)加服从参数为CSqt/隐私预算的拉普拉斯分布。我们用dt来表示真实的答案x（t-1)和添加噪音的答案xt之间的差别：dt=Q（xt-1）-at。这用来实现控制更新轮数。CIM机制维持了一个直方图序列x0，x1...xt，增加了对原始数据集x的近似。这个机制在下图中详细说明。

首先，隐私保护预算被分为几部分，直方图用统一的分布x0初始化。在每一轮t中，我们选择一个查询Qt，我们用xt生成答案at=Qt（xt）和添加噪声之后的答案。dt表示在x（t-1）上的查询和添加噪音之后的at的差别。若|dt|小于阈值T，x（t-1）则被认为是对于查询Qt来说是关于x的一个好的近似。我们将会直接发布Qt（x（t-1）），并且将xt-1放入下一轮中。如果dt比阈值大，意味着上一轮的查询结果与这一轮的添加噪声之后的结果差别很大，这样直方图x（t-1）就会被更新。我们将会使用相关更新函数U来发布at添加噪音之后的结果来产生新的直方图xt。

CIM的主要优势是并不是所有的查询都消耗隐私保护预算。若不更新，则不会消耗隐私预算，因为Q（x（t-1））并不是一个添加了噪音之后的答案。只有更新操作才会消耗隐私预算来发布添加噪音之后的at。因为更新的次数比查询次数要少，相比于传统的机制来说，CIM消耗的隐私保护预算更少。

CIM旨在隐私保护预算一定的情况下对相关数据集响应大量的查询，总的来说这个机制有如下特点：

1.首先，他考虑了记录之间的相关性。不仅引用了相关敏感度，更重要的是使用了一个相关更新函数来优化每一轮的直方图。

2.第二，减少了噪音的总量。CIM维护了一个直方图序列来回答查询集Q，而不是用一个直方图来回答所有的问题。通常来说，序列中的一个直方图对应着一个查询，并且每一个直方图都可以近似的给出查询的答案。

3.第三，同样的隐私预算，CIM可以回答更多的查询。只有更新步骤才会消耗隐私保护预算。上图说明了即使查询数量很大，数据更新的轮次依然小于总查询的数量。

4.最后，CIM不需要提前知道所有的查询，也不需要知道查询的数量，因为他工作的方式不同：在不考虑其他查询的答案的前提下，一轮只回答一个问题，并且对于每一个问题的答案都是由那一轮的直方图决定。更重要的是，印尼四预算可以用上图的算法来估计。

在对CIM有了大体的了解后，我们可以具体展示相关更新函数U和相关的参数。

B.相关更新函数

这部分定义了一个相关更新函数U。对于一个直方图x（t-1）来说，函数U定义了所有的响应记录r属于qt。对于qt中的每一条记录来说，所有相关的记录被记做超集qt。之后更新函数U识别包含超集qt的格子b并且通过如下算法重新安排b中每个格子的频率。

为了使他们的和为一，xt最终的频率将会被归一化。

定义 9（相关更新函数）：用x0，x1...xt作为一个直方图序列，若函数U满足xt=U（x（t-1））。U定义如下：xt（bi）=x（

t-1）（bi）*exp（-n*δqt*yt（xt-1））。其中yt（x（t-1））=Qt（x（t-1））（在d大于0时）否则，yt（x（t-1））=1-Qt（x（t-1））。n是与更新轮数有关的更新参数。

相关更新函数直观上是说，如果来自xt-1的答案跟真正的答案相比太小的话，相关的格子就会增多。否则将会减小。

C.参数讨论

这部分讨论CIM中参数的评估。就像之前提到的，只有更新轮才会消耗隐私预算。为了衡量参数T和n，我们需要顾及更新的最大轮数Umax以及可能的更新轮数Uq。Umax帮助决定在每一轮中的隐私预算。另外，对于查询集Q来说，Uq与查询精确度有关。

首先，我们估计了最大更新轮数Umax。给定一个数据集x，Umax可以用下面的定理估计。

定理：给定一个长度为N的直方图x，对于相对更新函数的Umax定义如下：Umax=（log（N）/(n^2*δ0^2））

证明：（得，这块又开始看不懂了）

从定理中可以看出Umax与参数n和相关敏感阈值δ0有关。如果我们想成功的回答更多的问题，我们可以选一个较小的n来允许更多的轮数。但是，这会导致每一次查询中含有大量的噪音，因为每一轮都会消耗隐私预算。

给定一组查询Q，可以估计出可能的更新轮数Uq。上面的算法提到，若|dt|>T，就更新。我们估计查询集Q里可能的更新函数。用p1代表更新概率，用p2代表不更细概率。我们得到如下定理：

定理：当每一轮的隐私保护预算和参数T固定时，更新概率p1=exp（（-隐私预算*|T-α|）/（CSq））。其中α决定了CIM的精确度。

引理：给定查询集Q，Uq将会满足Uq=|Q|exp（（-隐私预算*|T-a|）/（CSq））

证明：略

上面的定理说明了更新的可能性和T，α有关。如果参数T比α小很多，更新的可能性就会很高，噪音将会显著增大，查询结果的精确度也会受影响。燃文，如果T非常大，尽管我们减小了查询轮次，查询结果与真实答案相差很多，同样也会影响精度，我们可以得出CIM的精确度和T有关。在第七部分，我们用实验来证明在CIM中T的取舍。

第六部分机理分析

本文提出的CIM目的是在差分隐私预算固定的情况下，得到一个可以接受的实用性。在这部分，我们首先证明了算法是满足差分隐私的，然后分析了实用性损失。

A.Privacy Analysis

为了证明CIM满足差分隐私，我们首先分析CIM中的哪些步骤会消耗隐私保护预算。通过CIM算法，我们通过直方图在每一轮产生一个含有噪音的答案。然而，含有噪音的答案知识用来检查当前的直方图是否足够精确来回答查询。在大多数轮次中，我们并不发布含有噪音的答案，因此也不消耗隐私保护预算。含有噪音的答案只在更新轮次发布（当当前的直方图不足够精确时）。因此，隐私保护预算只在更新步骤消耗，并且隐私分析很容易的被限制在相关更新函数里。

我们引用了隐私预算的组成性质来分析隐私保证：当一系列的查询都针对同一数据集时，隐私保护预算将会被累加。

定理：（隐私保护预算串行累加）

上述定理可直接用来分析CIM的隐私保证。正如之前提到的，给定一个x，有Umax=logN/(n^2*δ^2）。分配给每一轮的隐私保护预算是（总预算/Umax）。通过上述定理可知，查询集Q发布的答案将会消耗隐私预算*Uq。因为Uq<Umax，可以得到隐私预算*Uq<=总的隐私预算。因此，CIM机制满足差分隐私。

B.实用性分析

对于实用性分析，我们使用了Blum定义的一个著名的实用性定义：

定义（（α，β）-Accuracy）：

一个机制M对于一组查询Q来说是满足（α，β）-Accuracy的，若：对于每次查询来说，有1-β的概率使得添加了噪音的查询结果和没添加噪音的查询结果的差值小于α。

在CIM中，实用性由发布的一系列查询答案得出。因此我们通过测量原始数据和添加了噪音的数据之间的距离来衡量实用性。

定义（CIM中的（α，β）-Accuracy）：对于一组查询Q来说，CIM满足（α，β）-Accuracy，若：对于每一个x的每轮查询，若能以1-β的概率满足CIM机制下第t轮产生的答案和真实答案之间的距离小于α。

基于此，我们会发现CIM有很高的概率被α严格限制。

定理：对于Q中的任何查询来说，对于所有的β>0，至少有1-β的概率使得CIM输出的误差小于α。当α>=（CSq/2*隐私预算）*（log（（p1*p2*L）/β））+T/2时，CIM满足（α，β）-Accuracy。

证明：（好长）