differential privacy 差分隐私摔门（三）

最新推荐文章于 2024-01-04 14:52:22 发布

Enjoyist

最新推荐文章于 2024-01-04 14:52:22 发布

阅读量5.4k

点赞数 3

文章标签：数据脱敏差分隐私指数机制论文翻译胡言乱语

差分隐私

从Terry Gross身高的例子可知，产生的附加信息即使某个人不在数据库中，也可能造成这个人的隐私泄露。为了躲开这个问题，我们从严格的隐私保护转向了一个相对宽泛的隐私保护：任何给定的信息都在一个很小的乘法因子中，就比如这个人是否在数据集中。结果，在参与数据集的过程中，一个人名义上的风险增加了，隐瞒或者欺骗只会获得名义上的收获。注意，隐私泄露仍然可能发生，但是我们保证不会出现个人的数据，同样用户的动作也不会使的他的数据不被纰漏。

定义2.一个随机函数K满足 e-diﬀerential privacy，如果对于所有顶多只相差一个元素的数据集D1，D2，和所有的S属于Range（K）有：

Pr[K(D1)属于S]<=exp(e)*Pr[K(D2)属于S] （1）

一个满足这种定义的机制解决了参与者担心的可能会泄露自己个人信息的问题：即使将某个参与者的数据从数据集中移除，输出结果也不会相差很大。例如，在某个保险公司给Terry Gross 投保前，不论她是否在数据集（保险公司用来分析的数据集）中都不会影响她被投保的概率。

这个定义也可以扩展到组隐私。若有c个人认为他们的统计数据会泄露信息（就算单个人的数据纰漏不会泄露信息）。通过这种定义，我们可以将可能性扩大至exp（c*e），对于c很小的情况下是可行的。注意，我们的目标是披露关于大型组的聚合信息，因此我们应该期望隐私界限随着团队规模的增加而瓦解。

满足差分隐私

我们现在描述一个具体的满足了e-differential privacy的隐私交互机制（在文献[12]中提到的）。这种机制向答案a=f（X）中添加合适的随机噪音，其中f是查询函数，X是数据库；因此查询函数一次可以操作整个数据库。可以简单的举例为“统计数据库中满足某些条件的行的数量”或再复杂点比如“计算每一列的中位数，如果第一列的中位数超过第二列的中位数，那么就在集合S中输出一个直方图，否则输出另一个集合T的直方图“。

注意那个上面提到的那个复杂一点的查询第一部分输出一个值向量，第二部分的答案是根据第一部分中的结果返回两个结果向量中的一个。尽管有点复杂，它仅仅是数据库的一个单独的查询函数。我们处理在定理4中描述的查询函数。这种查询结果依赖于前一个查询结果的问题在定理5中处理。例如，假设一个攻击者首先提交一个查询“计算每一列的中位数”，并且得到了带有噪声的中位数。以M为第一列发布的中位数（所以M是真实的中位数加上噪音）。攻击者可能随后又提交了一个问题：“如果M超过了第一列真实的中位数（噪音是正的）那么就...否则...”。第二个查询不仅仅是数据库的一个函数，也是与第一个查询隐私保护机制所添加噪声相关的一个函数；因此，他要随着机制的行为而适应。

指数分布噪声和L1敏感度

我们将通过单个参与者的参与给查询函数带来的最大变化来确定所添加噪声的等级；我们将这称为函数的敏感度（很不幸，敏感度这个词在隐私保护领域中被重复使用了--敏感度分析）

定义3.对于f：D->Rd，f的L1敏感度是

∆f = max ||f(D1)−f(D2)||（在D1，D2范围内）（2）

其中D1，D2相差最多一个元素

对于很多f来说，∆f可能非常小。比如简单的计数查询（“表中有多少行满足性质P？”）的查询敏感度就小于等于1.这种技术在 ∆f非常小即需要添加的噪声非常小的时候非常高效。注意敏感度只是查询函数的一个性质，与数据库无关。

隐私保护机制定义了Kf，即对于一个查询函数f，计算出f（X）并且参照方差σ（定理4）正比于指数分布在每一部分中添加噪音，通过密度函数描述如下

Pr[Kf(X)=a]∝exp(-||f(X)-a||/σ) （3）

这个分布有独立的坐标，每一个都是服从指数分布的随机变量。这种机制的实现只是简单的向f（X）中的每个坐标添加一定比例的服从指数分布的噪音。

定理4.（以上机制满足(∆f/σ)-diﬀerential privacy）

证明。从（3）开始，我们利用指数中的三角不等式，得出对于所有可能的输出r

Pr[Kf(D1)=r]<=Pr[Kf(D2)=r]*exp(||f(D1)-f[D2]||/σ) (4)

公式中的第二项被exp(∆f/σ)确定，通过定义∆f。因此公式（1）只适合单个数据集S={a}，并且有一个边界。

定理4说明了 ∆f， σ,和差分隐私之间的关系。要想满足e-differential 隐私保护，首先要满足 σ>= e/∆f。

依照所有复杂查询敏感度函数所确定的噪声非常重要，这种重要性可以在直方图查询中体现出来，在直方图中，数据元素被分为k组，比如各个地区鞋子贩卖数量的频率统计组，查询的结果是在每个组中的数（一个长度为k的数组）。简单的认为有k个查询，每个查询的敏感度为1，所以为了满足e-differential privacy，使用了k个理论4中的指数机制，每一个的方差为k/e。但是，对于任意只相差一个元素的数据库D1,D2， ||f(D1)−f(D2)|| = 1，只有一个组会改变，而且只改变1.因此，我们可以只应用一次理论4，在d=k，并且 ∆f = 1的情况下，只需要方差为1/e即可，而不是d/e。

灵活的攻击者：首先由一系列查询函数fp构成的查询策略F，fp（X）i是在p1，p2.。。pi-1的查询结果确定的前提下的第i个结果。如果一开始的i-1个p和p`相等，则fp（X）i=fp`（X）i。我们定义查询策略F的敏感度是其中函数敏感度最大的那个，即∆F = supρ ∆fρ。

定理5。对于任何的查询策略F={fp：D->Rd}，机制KF满足(∆F/σ)-diﬀerential privacy。

证明。对于每一个p属于（R+）d，条件概率说明

Pr[KF(X)=p]=(累乘符号，i<=d)Pr[KF(X)i=pi|p1,p2,,,,pi-1] (5)

若p1,p2,,,pi-1固定，并且KF（X）i的分布只是简单的均值为fp（X）i的随机变量，并且在每一部分中的噪声都服从方差为σ2的指数分布。因此，

Pr[KF(X)=p]∝（累加符号，i<=d）exp（-||fp（X）i-pi||/σ]）（6）

=exp（-||fp（X）-p||/σ）（7）

在定理4中，三角不等式满足(∆F/σ)-diﬀerential privacy。

随机的攻击者也是同样处理，即通过抛硬币的方式来决定胜利者的策略。

致谢（省略）

参考文献

[1] N. R. Adam and J. C. Wortmann, Security-Control Methods for Statistical Databases: A Comparative Study, ACM Computing Surveys 21(4): 515-556 (1989).

[2] R. Agrawal and R. Srikant. Privacy-preserving data mining. In Proc. ACM SIGMOD International Conference on Management of Data, pp. 439–450, 2000.

[3] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: The SuLQ framework. In Proceedings of the 24th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 128–138, June 2005.

[4] S. Chawla, C. Dwork, F. McSherry, A. Smith, and H. Wee. Toward privacy in public databases. In Proceedings of the 2nd Theory of Cryptography Conference, pages 363–385, 2005.

[5] S. Chawla, C. Dwork, F. McSherry, and K. Talwar. On the utility of privacypreserving histograms. In Proceedings of the 21st Conference on Uncertainty in Artiﬁcial Intelligence, 2005.

[6] T. Dalenius, Towards a methodology for statistical disclosure control. Statistik Tidskrift 15, pp. 429–222, 1977.

[7] D. E. Denning, Secure statistical databases with random sample queries, ACM Transactions on Database Systems, 5(3):291–315, September 1980.

[8] I. Dinur and K. Nissim. Revealing information while preserving privacy. In Proceedings of the 22nd ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 202–210, 2003.

[9] D. Dobkin, A.K. Jones, and R.J. Lipton, Secure databases: Protection against user inﬂuence. ACM Trans. Database Syst. 4(1), pp. 97–106, 1979.

[10] Y. Dodis, L. Reyzin and A. Smith, Fuzzy extractors: How to generate strong keys from biometrics and other noisy data. In Proceedings of EUROCRYPT 2004, pp. 523–540, 2004.

[11] Y. Dodis and A. Smith, Correcting Errors Without Leaking Partial Information, In Proceedings of the 37th ACM Symposium on Theory of Computing, pp. 654–663, 2005.

[12] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. In Proceedings of the 3rd Theory of Cryptography Conference, pages 265–284, 2006.

[13] C. Dwork and K. Nissim. Privacy-preserving datamining on vertically partitioned databases. In Advances in Cryptology: Proceedings of Crypto, pages 528–544, 2004.

[14] A. Evﬁmievski, J. Gehrke, and R. Srikant. Limiting privacy breaches in privacy preserving data mining. In Proceedings of the 22nd ACM SIGMOD-SIGACTSIGART Symposium on Principles of Database Systems, pages 211–222, June 2003.

[15] S. Goldwasser and S. Micali, Probabilistic encryption. Journal of Computer and System Sciences 28, pp. 270–299, 1984; prelminary version appeared in Proceedings 14th Annual ACM Symposium on Theory of Computing, 1982.

[16] N. Nisan and D. Zuckerman. Randomness is linear in space. J. Comput. Syst. Sci., 52(1):43–52, 1996.

[17] Ronen Shaltiel. Recent developments in explicit constructions of extractors. Bulletin of the EATCS, 77:67–95, 2002.

[18] Sweeney, L., Weaving technology and policy together to maintain conﬁdentiality. J Law Med Ethics, 1997. 25(2-3): p. 98-110.

[19] L. Sweeney, Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledgebased Systems, 10 (5), 2002; 571-588.