differential privacy 差分隐私入门 (二)

最新推荐文章于 2025-02-15 19:31:26 发布

Enjoyist

最新推荐文章于 2025-02-15 19:31:26 发布

阅读量8k

点赞数

文章标签：胡言乱语

（书接上回）

对差分隐私比较感兴趣，看了几篇文章，了解一下大概的思想。现在决定重新看一下，发现有些文章内容不是很懂，干脆就一边翻译一边看了，不懂的地方我会加下划线，如果有人看到了，还请不吝指教。（注：文章是Cynthia Dwork的《Diﬀerential Privacy》）

隐私泄露完全防护的不可实现性

这种“不可能的结果”需要注意数据的实用性，毕竟如果一个机制只输出空字符串或者仅仅是噪声，显然也是保护了隐私。首先提到一些现有的机制，比如直方图发布或者K-Anonymity技术[19]，很明显，对于一个有用的机制来说，他的输出不应该被用户预测到；在随机化的机制里也是如此，但是其中的不可预测性不是来自于随机机制的随机选择。感觉上来说，应该有一系列的问题（其中大多数），这些问题的答案对于用户来说是可学习的，但在事前是不知道到的。因此我们提出了一个可用性向量，称为 w，这是一个有着固定长度 k 的二进制向量（对于二进制值无特别意义）。我们可以认为关于数据问题的答案就是这些可用性向量。

数据库的隐私侵犯可以用图灵机 C 来描述，输入数据库分布 D 的描述，通过这个描述生成一个数据库 DB，一个所谓隐私侵犯的字符串并输出一个单独的比特（我们不知道具体的D的分布是什么）。我们要求C总是停止。我们说，如果在C中，给定一对（D，DB），生成了一个C(D,DB,s)接受的字符串s，则认为隐私被侵犯了。下文中C将省略。

附加信息生成者是一个图灵机，他的输入是数据库的分布D和以此生成的数据库DB，输出一个附加信息字符串z。攻击者和模拟者都会获得这个字符串。模拟者没有任何数据库的权限，攻击者可以通过隐私保护机制访问数据库。

我们用一种交流式的图灵机来模拟对手。下面的理论说明了对于任何隐私保护机制 San（）和任何分布在San（）中满足某种技术的分布D，总会有一些附加信息z，使得z单独出现没有影响，但是若是和访问数据库的权限结合起来，就可以认为会造成隐私泄露。除了对上面讨论的效用矢量的熵要求进行形式化外，分布上的技术条件表明，了解隐私泄露的长度并不能帮助人们猜测隐私问题。

理论1：给定任何的隐私保护机制San（）和一个隐私泄露判定者C。存在一个附加信息生成者和一个攻击者，对于任何满足假设3的分布D，和所有的模拟攻击者A*，

Pr[A(D，San（D，DB），X（D，DB）)wins]-Pr[A*(D,X(D，DB))wins]>= ∆

∆一个合格的选定的常数。The probability spaces are over choice of DB ∈R D and the coin ﬂips of San, X, A, and A∗？（翻译者：就说隐私保护机制的存在增加了隐私泄露的风险 ∆？）

在看到附加信息生成者输出的信息之前，分布D描述了攻击者所知道关于数据库的任何信息。例如，可能知道数据库的行与至少拥有两只宠物的人有关联。注意在定理的声明中，所有参与方可以可到分布D，可能还有一个C的硬链接；但是，攻击者并不会使用它们。

当所有w都是从San（DB）中得到时X和A所选择的策略：为了研究我们的观点，我们先用一些非正式的方式来描述这种特殊情况的策略，在这种情况下，对手总是从隐私机制中学习所有的效用向量w。这是比较现实的，例如，当数据清洗提供了一个在各个年龄区间患病的人数统计直方图，或者数据清洗者从数据库中随机选出一部分子集来发布不同疾病，不同年龄段的统计信息。这个简单的例子让我们可以使用一个假设3 的更宽泛的版本：

假设2：

1，任意0<γ<1，存在nγ，使得Pr[|DB|>nγ]<γ（DB属于RD）；nγ可以被D当做输出计算出来。

2，存在一个l是下面两项成立：

（a）给定任何隐私泄露长度l，使用向量的最小熵是l。

（b）对于每一个DB属于D都有长度为l的隐私泄露。

3，Pr[B(D,San(DB))wins ]<=u成立，对于任何交互式图灵机B，u是一个合适的小常量。 The probability is taken over the coin ﬂips of B and the privacy mechanism San(), as well as the choice of DB ∈R D？

直觉上来说，2（a）部分意味着我们可以从实用性向量中随机抽取l个比特。。。

（恕奴愚钝，越来越看不懂了，下一篇直接到差分隐私吧）