摘要
数据分析的隐私保护问题有着悠久的历史,涉及多个学科。随着个人的电子数据变得越来越详细,使收集和整理这些数据的技术变得越来越强大。逐渐产生了这样一种需求:某种学科能够对“隐私”在健壮性、意义、严格的数学定义方面提供规定,同时其算法又能满足较大的计算量。差分隐私应运而生。
在探索讨论差分隐私的意义之后,本书所写致力于实现差分隐私的基本技术,并在创造性的组合中应用这些技术,以查询-发布问题为例。讨论差分隐私的含义之后,关键优势在于:相比于通过差分隐私方式实现系统地取代非私人的每一步计算,通过反思计算目标,我们经常可以获得更好的结果。尽管有一些惊人的强大的计算结果,但仍然有一些基本的限制——不仅是在不同的隐私下可以实现什么,而且在任何保护隐私不被完全破坏的方法上都可以实现什么。本文中讨论的算法在面对不同计算能力的攻击者时都能做到差分隐私保护,其中有些算法的计算能力很强,有些比较高效,文中对算法的复杂度也有分析和讨论。
然后,我们从基础转向查询发布之外的应用程序,讨论用于机制设计和机器学习的不同的差分隐私方法。绝大多数关于不同的差分隐私算法的文献考虑的是单一的、静态的、需要进行大量的分析的数据库。讨论了其他模型,包括分布式数据库和数据流计算中的差分隐私的应用。
最后,本书声明,本书所做工作是作为一个全面介绍差分隐私的问题和技术,但并不能称得上时详尽的调研,到目前为止在差分隐私领域有大量的工作和研究内容,我们所涉及的只能涵盖其中的一小部分。