【中文翻译】第13章(含附录)-The Algorithmic Foundations of Differential Privacy

由于GitHub项目仅翻译到前5章,我们从第6章开始通过大语言模型翻译,并导出markdown格式。
大模型难免存在错漏,请读者指正。

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

在这里插入图片描述

13 反思

13.1 迈向隐私实践

差分隐私的设计初衷是针对互联网规模的数据集。类似于第8节中的重建攻击可以由一个多项式时间有界的对手在大小为 n n n的数据库上仅询问 O ( n ) O\left( n\right) O(n)个查询来实施。当 n n n达到数亿级别,并且每个查询需要线性量级的计算时,即使查询可以并行化,这样的攻击也是不现实的。这一观察促成了差分隐私的早期发展:如果对手被限制在亚线性数量的计数查询范围内,那么每个查询添加 o ( n ) o\left( \sqrt{n}\right) o(n )噪声——小于采样误差!——就足以保护隐私(推论3.21)。

在不破坏统计效用的前提下,差分隐私(Differential Privacy)能在多大程度上应用于较小的数据集,甚至是针对大型数据库中一小部分数据的定向攻击呢?首先,一项分析可能需要进行大量查询,其数量开始接近这个较小数据集的规模。其次,现在让 n n n表示较小数据集或小型数据库的大小,让 k k k表示查询的数量,当 n n n较小时,数量级为 k / n \sqrt{k}/n k /n的分数误差就难以忽略。第三,高级组合定理中的 ln ⁡ ( 1 / δ ) / ε \sqrt{\ln \left( {1/\delta }\right) }/\varepsilon ln(1/δ) /ε因子变得很重要。考虑到当噪声为 o ( n ) o\left( \sqrt{n}\right) o(n )时的重构攻击,对于任意一组 k ≈ n k \approx n kn低敏感度查询而言,似乎没有多少操作空间。

有几条很有前景的研究路线可以解决这些问题。

查询误差并不能说明全部情况。以线性回归(Linear Regression)问题为例。输入是一组形式为(x,y)的带标签数据点,其中 x ∈ R d x \in {\mathbb{R}}^{d} xRd y ∈ R y \in \mathbb{R} yR,维度 d d d为任意值。目标是在假设关系为线性的情况下,给定 x x x,找到能“尽可能好地”“预测” y y y θ ∈ R d \theta \in {\mathbb{R}}^{d} θRd。如果目标仅仅是“解释”给定的数据集,那么差分隐私很可能会引入不可接受的误差。当然,简单地计算

argmin ⁡ θ ∣ ∑ i = 1 n θ ⋅ x i − y i ∣ 2 {\operatorname{argmin}}_{\theta }{\left| \mathop{\sum }\limits_{{i = 1}}^{n}\theta \cdot {x}_{i} - {y}_{i}\right| }^{2} argminθ i=1nθxiyi 2

并独立地向 θ \theta θ的每个坐标添加适当缩放的拉普拉斯噪声(Laplace Noise)的特定算法,可能会产生与 θ \theta θ有很大差异的 θ ~ \widetilde{\theta } θ 。但如果目标是学习一个对未来未见过的输入(x,y)表现良好的预测器,那么可以使用一种稍有不同的计算方法来避免过拟合,并且私有系数向量和非私有系数向量之间(可能很大的)差异并不会转化为分类误差的差距!在模型拟合中也观察到了类似的现象。

少即是多。许多分析要求的比实际使用的更多。利用这一原理是“报告噪声最大值(Report Noisy Max)”方法的核心,在该方法中,以一次测量的精度“代价”,我们可以得知多个测量值中的最大值之一。通过要求“更少”(即不要求发布所有带噪声的测量值,而只要求得到最大值),我们可以获得“更多”(更高的精度)。隐私领域中一个常见的原则是尽量减少数据收集和报告。在这里,我们看到这一原则在必须披露的内容方面发挥作用,而不是在计算中必须使用的内容方面。

未领先时就退出。这是“提议 - 测试 - 发布(Propose - Test - Release)”方法背后的理念,在该方法中,我们以保护隐私的方式进行测试,以确定小噪声是否足以用于对给定数据集进行特定的预期计算。

具有依赖数据的精度界限的算法。这可以看作是“未领先时就退出”方法的推广。具有依赖数据的精度界限的算法可以在“优质”数据集上取得出色的结果,就像“提议 - 测试 - 发布”方法一样,并且随着数据集“质量”的下降,精度可以逐渐降低,这比“提议 - 测试 - 发布”方法有所改进。

利用“良好”的查询集。当以批量形式呈现(可能很大的)线性查询集时,通过分析查询矩阵的几何结构,有可能获得比独立回答这些查询时更高质量的答案 1 {}^{1} 1

差分隐私的进一步松弛 我们已经看到, ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) - 差分隐私是差分隐私的一种有意义的松弛方式,它可以显著改善精度界限。此外,这种松弛对于这些改进可能是必不可少的。例如,提议 - 测试 - 发布算法只能为 δ > 0 \delta > 0 δ>0 提供 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) - 差分隐私。那么,差分隐私的其他有意义的松弛方式呢?集中差分隐私就是这样一种松弛方式,它与 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) - 差分隐私不可比,并且允许更高的精度。粗略地说,它确保了大的隐私损失以非常小的概率发生;例如,对于所有 k k k,隐私损失 k ε {k\varepsilon } kε 的概率在 k 2 {k}^{2} k2 中呈指数下降。相比之下, ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) - 差分隐私与以概率 δ \delta δ 出现无限的隐私损失是一致的;另一方面,隐私损失 2 ε {2\varepsilon } 2ε 在集中差分隐私中可以以恒定概率发生,而在 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) - 差分隐私中,它只会以由 δ \delta δ 界定的概率发生,我们通常认为这个概率在密码学意义上是很小的。

为什么我们会对这种松弛方式感到满意呢?答案在于组合下的行为。当一个人的数据参与到许多数据库和许多不同的计算中时,也许真正令人担忧的是多次暴露的综合威胁。这可以通过组合下的隐私来体现。集中差分隐私在组合下的行为与 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ)(和 ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0))差分隐私相同,同时允许更高的精度。


1 {}^{1} 1 更准确地说,分析的对象是 K = A B 1 k K = A{B}_{1}^{k} K=AB1k,其中 A A A 是查询矩阵, B 1 k {B}_{1}^{k} B1k k k k 维的 L 1 {L}_{1} L1 球;请注意,当数据库只有一个元素时, K K K 是答案空间中的可行区域。


差分隐私还面临着一些文化方面的挑战。其中最显著的挑战之一是非算法思维。差分隐私是算法的一种属性。然而,许多处理数据的人从根本上以非算法的术语描述他们与数据的交互,例如,“首先,我查看数据”。类似地,数据清理通常也以非算法的术语来描述。如果数据相当丰富,并且分析人员积极主动,那么示例 7.3 中描述的子采样和聚合方法的“原始数据”应用为遵循指示的可信分析人员进行非算法交互提供了一条途径。一般来说,在高维和互联网规模的数据集上,非算法交互似乎不太常见。

ε \varepsilon ε 呢?在示例 3.7 中,我们应用定理 3.20 得出结论,要以概率 1 − e − 32 1 - {e}^{-{32}} 1e32 将累积终身隐私损失限制在 ε = 1 \varepsilon = 1 ε=1,在参与 10000 个数据库的情况下,每个数据库具有 ( 1 / 801 , 0 ) \left( {1/{801},0}\right) (1/801,0) - 差分隐私就足够了。虽然 k = 10 , 000 k = {10},{000} k=10,000 可能是一个高估,但对 k k k 的依赖相当弱 ( k ) \left( \sqrt{k}\right) (k ),并且在最坏的情况下,这些界限是严格的,排除了在数据库的整个生命周期内每个数据库比 ε 0 = 1 / 801 {\varepsilon }_{0} = 1/{801} ε0=1/801 更宽松的界限。在实践中,这一要求过于严格。

也许我们可以换个问题:固定 ε \varepsilon ε,比如说 ε = 1 \varepsilon = 1 ε=1 ε = 1 / 10 \varepsilon = 1/{10} ε=1/10;现在来问:多个 ε \varepsilon ε该如何分配呢?允许每次查询有 ε \varepsilon ε的隐私损失太宽松,而允许数据库整个生命周期有 ε \varepsilon ε的损失又太严格。介于两者之间的情况,比如每项研究有 ε \varepsilon ε的损失或每个研究人员有 ε \varepsilon ε的损失,可能是合理的,尽管这会引出谁是“研究人员”以及什么构成“研究”的问题。与目前从数据飞地到保密合同等做法相比,这能为防止意外和故意的隐私泄露提供更充分的保护。

另一个提议的规定性没那么强。该提议借鉴了第二代减少环境退化的监管方法,特别是像有毒物质排放清单这类污染排放登记制度,这些制度已被证明能通过提高透明度来鼓励更好的做法。也许在私人数据分析中也能产生类似的效果:一个ε登记系统(Epsilon Registry),它描述数据的使用情况、隐私保护的粒度、单位时间内隐私损失的“消耗率”,以及在数据停用前允许的总隐私损失上限,再加上对无限(或非常大)损失的经济处罚,能够引发创新和竞争,让更多的研究人员和隐私专家发挥才能、投入资源来寻找差分隐私算法。

13.2 差分隐私视角

一本在线词源词典将“统计学”(statistics)这个词在18世纪最初的含义描述为“处理有关一个国家或社区状况数据的科学”。这与差分隐私在数据泄露方面的情况相呼应:如果少数个体数据的存在与否改变了分析结果,那么从某种意义上说,这个结果是“关于”这少数个体的,而不是在描述整个社区的状况。换句话说,数据的小扰动稳定性既是差分隐私的标志,也是“统计学”这一术语常见概念的本质。差分隐私由稳定性实现(第7节),并确保稳定性(根据定义)。从某种意义上说,它迫使所有查询本质上都是统计性的。由于稳定性也越来越被认为是可学习性的一个关键充要条件,我们发现可学习性、差分隐私和稳定性之间存在着一种诱人的道德等价关系。

考虑到这一点,差分隐私也是实现隐私之外其他目标的一种手段就不足为奇了,实际上我们在第10节的博弈论中已经看到了这一点。差分隐私的强大之处在于它易于组合。正如组合允许我们用较小的差分隐私构建块来构建复杂的差分隐私算法一样,它也为构建用于复杂分析任务的稳定算法提供了一种编程语言。例如,考虑引出一组投标人的估值,并利用这些估值为一批待售商品定价的问题。简单来说,瓦尔拉斯均衡价格(Walrasian equilibrium prices)是这样一种价格,即在给定这些价格的情况下,每个个体都能同时购买到他们最喜欢的商品组合,同时确保每种商品的需求恰好等于供给。乍一看,那么简单地计算这些价格,并根据这些价格为每个人分配他们最喜欢的商品组合,似乎会产生一种机制,在这种机制中,参与者会有动力如实说出他们的估值函数——因为任何参与者怎么可能比得到他们最喜欢的商品组合做得更好呢?然而,这个论点不成立——因为在瓦尔拉斯均衡中,参与者根据价格得到他们最喜欢的商品组合,但价格是根据报告的估值计算出来的,所以一个勤勉但不诚实的参与者可能会通过操纵计算出的价格来获利。然而,如果使用差分隐私算法来计算均衡价格,这个问题就能得到解决(并产生一种近似诚实的机制)——正是因为单个参与者对计算出的价格分布几乎没有影响。请注意,这个应用之所以成为可能是因为使用了差分隐私的工具,但它与隐私问题完全无关。更一般地说,这种联系更为根本:使用具有差分隐私所保证的稳定性属性的算法来计算各种均衡,会产生实现这些均衡结果的近似诚实机制。

差分隐私(Differential privacy)还有助于确保自适应数据分析中的泛化性。适应性是指所提出的问题和所检验的假设依赖于早期问题的结果。泛化性是指对数据集进行计算或测试的结果接近数据采样分布的真实情况。众所周知,在固定数据集上用精确的经验值回答查询的简单范式,即使在有限的自适应提问情况下也无法实现泛化。值得注意的是,使用差分隐私进行回答不仅能确保隐私性,而且在高概率下,即使对于指数级数量的自适应选择查询,它也能确保泛化性。因此,利用差分隐私技术有意引入噪声,对传统科学探究的有效性具有深远且有前景的意义。

附录

A 高斯机制

f : N ∣ X ∣ → R d f : {\mathbb{N}}^{\left| \mathcal{X}\right| } \rightarrow {\mathbb{R}}^{d} f:NXRd 为任意 d d d 维函数,并将其 ℓ 2 {\ell }_{2} 2 敏感度定义为 Δ 2 f = max ⁡ adjacent  x , y ∥ f ( x ) − f ( y ) ∥ 2 {\Delta }_{2}f = \mathop{\max }\limits_{{\text{adjacent }x,y}}\parallel f\left( x\right) - f\left( y\right) {\parallel }_{2} Δ2f=adjacent x,ymaxf(x)f(y)2。参数为 σ \sigma σ 的高斯机制会将按 N ( 0 , σ 2 ) \mathcal{N}\left( {0,{\sigma }^{2}}\right) N(0,σ2) 缩放的噪声添加到输出的每个 d d d 分量中。

定理 A.1。设 ε ∈ ( 0 , 1 ) \varepsilon \in \left( {0,1}\right) ε(0,1) 为任意值。对于 c 2 > 2 ln ⁡ ( 1.25 / δ ) {c}^{2} > 2\ln \left( {{1.25}/\delta }\right) c2>2ln(1.25/δ),参数为 σ ≥ c Δ 2 f / ε \sigma \geq c{\Delta }_{2}f/\varepsilon σcΔ2f/ε 的高斯机制具有 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私性。

证明。存在一个数据库 D D D 和一个查询 f f f,该机制将返回 f ( D ) + η f\left( D\right) + \eta f(D)+η,其中噪声呈正态分布。我们正在添加噪声 N ( 0 , σ 2 ) \mathcal{N}\left( {0,{\sigma }^{2}}\right) N(0,σ2)。目前,假设我们讨论的是实值函数,因此

Δ f = Δ 1 f = Δ 2 f {\Delta f} = {\Delta }_{1}f = {\Delta }_{2}f Δf=Δ1f=Δ2f

我们正在研究

∣ ln ⁡ e ( − 1 / 2 σ 2 ) x 2 e ( − 1 / 2 σ 2 ) ( x + Δ f ) 2 ∣ . (A.1) \left| {\ln \frac{{e}^{\left( {-1/2{\sigma }^{2}}\right) {x}^{2}}}{{e}^{\left( {-1/2{\sigma }^{2}}\right) {\left( x + \Delta f\right) }^{2}}}}\right| . \tag{A.1} lne(1/2σ2)(x+Δf)2e(1/2σ2)x2 .(A.1)

我们正在研究在数据库为 D D D的情况下,观察到一个输出的概率,该输出在 D D D下的出现概率与在相邻数据库 D ′ {D}^{\prime } D下的出现概率有很大不同,其中概率空间是噪声生成算法。上述比率的分子描述了数据库为 D D D时看到 f ( D ) + x f\left( D\right) + x f(D)+x的概率,分母对应于数据库为 D ′ {D}^{\prime } D时看到相同值的概率。这是一个概率比率,因此它始终为正,但该比率的对数可能为负。我们感兴趣的随机变量——隐私损失——是

ln ⁡ e ( − 1 / 2 σ 2 ) x 2 e ( − 1 / 2 σ 2 ) ( x + Δ f ) 2 \ln \frac{{e}^{\left( {-1/2{\sigma }^{2}}\right) {x}^{2}}}{{e}^{\left( {-1/2{\sigma }^{2}}\right) {\left( x + \Delta f\right) }^{2}}} lne(1/2σ2)(x+Δf)2e(1/2σ2)x2

并且我们正在研究它的绝对值。

∣ ln ⁡ e ( − 1 / 2 σ 2 ) x 2 e ( − 1 / 2 σ 2 ) ( x + Δ f ) 2 ∣ = ∣ ln ⁡ e ( − 1 / 2 σ 2 ) [ x 2 − ( x + Δ f ) 2 ] ∣ \left| {\ln \frac{{e}^{\left( {-1/2{\sigma }^{2}}\right) {x}^{2}}}{{e}^{\left( {-1/2{\sigma }^{2}}\right) {\left( x + \Delta f\right) }^{2}}}}\right| = \left| {\ln {e}^{\left( {-1/2{\sigma }^{2}}\right) \left\lbrack {{x}^{2} - {\left( x + \Delta f\right) }^{2}}\right\rbrack }}\right| lne(1/2σ2)(x+Δf)2e(1/2σ2)x2 = lne(1/2σ2)[x2(x+Δf)2]

= ∣ − 1 2 σ 2 [ x 2 − ( x 2 + 2 x Δ f + Δ f 2 ) ] ∣ = \left| {-\frac{1}{2{\sigma }^{2}}\left\lbrack {{x}^{2} - \left( {{x}^{2} + {2x\Delta f} + \Delta {f}^{2}}\right) }\right\rbrack }\right| = 2σ21[x2(x2+2xΔf+Δf2)]

= ∣ 1 2 σ 2 ( 2 x Δ f + ( Δ f ) 2 ) ∣ . (A.2) = \left| {\frac{1}{2{\sigma }^{2}}\left( {{2x\Delta f} + {\left( \Delta f\right) }^{2}}\right) }\right| . \tag{A.2} = 2σ21(2xΔf+(Δf)2) .(A.2)

只要 x < σ 2 ε / Δ f − Δ f / 2 x < {\sigma }^{2}\varepsilon /{\Delta f} - {\Delta f}/2 x<σ2ε/ΔfΔf/2,这个量就以 ε \varepsilon ε为界。为了确保隐私损失以至少 1 − δ 1 - \delta 1δ的概率被 ε \varepsilon ε界定,我们要求

Pr ⁡ [ ∣ x ∣ ≥ σ 2 ε / Δ f − Δ f / 2 ] < δ , \Pr \left\lbrack {\left| x\right| \geq {\sigma }^{2}\varepsilon /{\Delta f} - {\Delta f}/2}\right\rbrack < \delta , Pr[xσ2ε/ΔfΔf/2]<δ,

并且因为我们关注 ∣ x ∣ \left| x\right| x,我们将找到 σ \sigma σ使得

Pr ⁡ [ x ≥ σ 2 ε / Δ f − Δ f / 2 ] < δ / 2. \Pr \left\lbrack {x \geq {\sigma }^{2}\varepsilon /{\Delta f} - {\Delta f}/2}\right\rbrack < \delta /2. Pr[xσ2ε/ΔfΔf/2]<δ/2.

我们始终假设 ε ≤ 1 ≤ Δ f \varepsilon \leq 1 \leq {\Delta f} ε1Δf

我们将使用尾界

Pr ⁡ [ x > t ] ≤ σ 2 π e − t 2 / 2 σ 2 . \Pr \left\lbrack {x > t}\right\rbrack \leq \frac{\sigma }{\sqrt{2\pi }}{e}^{-{t}^{2}/2{\sigma }^{2}}. Pr[x>t]2π σet2/2σ2.

我们要求:

σ 2 π 1 t e − t 2 / 2 σ 2 < δ / 2 \frac{\sigma }{\sqrt{2\pi }}\frac{1}{t}{e}^{-{t}^{2}/2{\sigma }^{2}} < \delta /2 2π σt1et2/2σ2<δ/2

⇔ σ 1 t e − t 2 / 2 σ 2 < 2 π δ / 2 \Leftrightarrow \sigma \frac{1}{t}{e}^{-{t}^{2}/2{\sigma }^{2}} < \sqrt{2\pi }\delta /2 σt1et2/2σ2<2π δ/2

⇔ t σ e t 2 / 2 σ 2 > 2 / 2 π δ \Leftrightarrow \frac{t}{\sigma }{e}^{{t}^{2}/2{\sigma }^{2}} > 2/\sqrt{2\pi }\delta σtet2/2σ2>2/2π δ

⇔ ln ⁡ ( t / σ ) + t 2 / 2 σ 2 > ln ⁡ ( 2 / 2 π δ ) . \Leftrightarrow \ln \left( {t/\sigma }\right) + {t}^{2}/2{\sigma }^{2} > \ln \left( {2/\sqrt{2\pi }\delta }\right) \text{.} ln(t/σ)+t2/2σ2>ln(2/2π δ).

t = σ 2 ε / Δ f − Δ f / 2 t = {\sigma }^{2}\varepsilon /{\Delta f} - {\Delta f}/2 t=σ2ε/ΔfΔf/2,我们得到

ln ⁡ ( ( σ 2 ε / Δ f − Δ f / 2 ) / σ ) + ( σ 2 ε / Δ f − Δ f / 2 ) 2 / 2 σ 2 > ln ⁡ ( 2 / 2 π δ ) \ln \left( {\left( {{\sigma }^{2}\varepsilon /{\Delta f} - {\Delta f}/2}\right) /\sigma }\right) + {\left( {\sigma }^{2}\varepsilon /\Delta f - \Delta f/2\right) }^{2}/2{\sigma }^{2} > \ln \left( {2/\sqrt{2\pi }\delta }\right) ln((σ2ε/ΔfΔf/2)/σ)+(σ2εfΔf/2)2/2σ2>ln(2/2π δ)

= ln ⁡ ( 2 π 1 δ ) . = \ln \left( {\sqrt{\frac{2}{\pi }}\frac{1}{\delta }}\right) . =ln(π2 δ1).

让我们记 σ = c Δ f / ε \sigma = {c\Delta f}/\varepsilon σ=cΔf/ε;我们希望界定 c c c。我们首先找出第一项非负的条件。

1 σ ( σ 2 ε Δ f − Δ f 2 ) = 1 σ [ ( c 2 ( Δ f ) 2 ε 2 ) ε Δ f − Δ f 2 ] \frac{1}{\sigma }\left( {{\sigma }^{2}\frac{\varepsilon }{\Delta f} - \frac{\Delta f}{2}}\right) = \frac{1}{\sigma }\left\lbrack {\left( {{c}^{2}\frac{{\left( \Delta f\right) }^{2}}{{\varepsilon }^{2}}}\right) \frac{\varepsilon }{\Delta f} - \frac{\Delta f}{2}}\right\rbrack σ1(σ2Δfε2Δf)=σ1[(c2ε2(Δf)2)Δfε2Δf]

= 1 σ [ c 2 ( Δ f ε ) − Δ f 2 ] = \frac{1}{\sigma }\left\lbrack {{c}^{2}\left( \frac{\Delta f}{\varepsilon }\right) - \frac{\Delta f}{2}}\right\rbrack =σ1[c2(εΔf)2Δf]

= ε c Δ f [ c 2 ( Δ f ε ) − Δ f 2 ] = \frac{\varepsilon }{c\Delta f}\left\lbrack {{c}^{2}\left( \frac{\Delta f}{\varepsilon }\right) - \frac{\Delta f}{2}}\right\rbrack =cΔfε[c2(εΔf)2Δf]

= c − ε 2 c . = c - \frac{\varepsilon }{2c}. =c2cε.

由于 ε ≤ 1 \varepsilon \leq 1 ε1 c ≥ 1 c \geq 1 c1,我们有 c − ε / ( 2 c ) ≥ c − 1 / 2 c - \varepsilon /\left( {2c}\right) \geq c - 1/2 cε/(2c)c1/2。因此,只要 c ≥ 3 / 2 c \geq 3/2 c3/2,就有 ln ⁡ ( 1 σ ( σ 2 ε Δ f − \ln \left( {\frac{1}{\sigma }\left( {{\sigma }^{2}\frac{\varepsilon }{\Delta f} - }\right. }\right. ln(σ1(σ2Δfε Δ f 2 ) ) > 0 \left. \left. \frac{\Delta f}{2}\right) \right) > 0 2Δf))>0。因此,我们可以专注于 t 2 / σ 2 {t}^{2}/{\sigma }^{2} t2/σ2项。

( 1 2 σ 2 σ 2 ε Δ f − Δ f 2 ) 2 = 1 2 σ 2 [ Δ f ( c 2 ε − 1 2 ) ] 2 {\left( \frac{1}{2{\sigma }^{2}}\frac{{\sigma }^{2}\varepsilon }{\Delta f} - \frac{\Delta f}{2}\right) }^{2} = \frac{1}{2{\sigma }^{2}}{\left\lbrack \Delta f\left( \frac{{c}^{2}}{\varepsilon } - \frac{1}{2}\right) \right\rbrack }^{2} (2σ21Δfσ2ε2Δf)2=2σ21[Δf(εc221)]2

= [ ( Δ f ) 2 ( c 2 ε − 1 2 ) ] 2 [ ε 2 c 2 ( Δ f ) 2 ] 1 2 = {\left\lbrack {\left( \Delta f\right) }^{2}\left( \frac{{c}^{2}}{\varepsilon } - \frac{1}{2}\right) \right\rbrack }^{2}\left\lbrack \frac{{\varepsilon }^{2}}{{c}^{2}{\left( \Delta f\right) }^{2}}\right\rbrack \frac{1}{2} =[(Δf)2(εc221)]2[c2(Δf)2ε2]21

= 1 2 ( c 2 ε − 1 2 ) 2 ε 2 c 2 = \frac{1}{2}{\left( \frac{{c}^{2}}{\varepsilon } - \frac{1}{2}\right) }^{2}\frac{{\varepsilon }^{2}}{{c}^{2}} =21(εc221)2c2ε2

= 1 2 ( c 2 − ε + ε 2 / 4 c 2 ) . = \frac{1}{2}\left( {{c}^{2} - \varepsilon + {\varepsilon }^{2}/4{c}^{2}}\right) . =21(c2ε+ε2/4c2).

由于 ε ≤ 1 \varepsilon \leq 1 ε1,在我们考虑的范围 ( c ≥ 3 / 2 ) \left( {c \geq 3/2}\right) (c3/2)内, ( c 2 − ε + ε 2 / 4 c 2 ) \left( {{c}^{2} - \varepsilon + {\varepsilon }^{2}/4{c}^{2}}\right) (c2ε+ε2/4c2)关于 c c c的导数为正,所以 c 2 − ε + ε 2 / 4 c 2 ≥ c 2 − 8 / 9 {c}^{2} - \varepsilon + {\varepsilon }^{2}/4{c}^{2} \geq {c}^{2} - 8/9 c2ε+ε2/4c2c28/9,并且确保

c 2 − 8 / 9 > 2 ln ⁡ ( 2 π 1 δ ) . {c}^{2} - 8/9 > 2\ln \left( {\sqrt{\frac{2}{\pi }}\frac{1}{\delta }}\right) . c28/9>2ln(π2 δ1).

换句话说,我们需要

c 2 > 2 ln ⁡ ( 2 / π ) + 2 ln ⁡ ( 1 / δ ) + ln ⁡ ( e 8 / 9 ) = ln ⁡ ( 2 / π ) + ln ⁡ ( e 8 / 9 ) + 2 ln ⁡ ( 1 / δ ) , {c}^{2} > 2\ln \left( \sqrt{2/\pi }\right) + 2\ln \left( {1/\delta }\right) + \ln \left( {e}^{8/9}\right) = \ln \left( {2/\pi }\right) + \ln \left( {e}^{8/9}\right) + 2\ln \left( {1/\delta }\right) , c2>2ln(2/π )+2ln(1/δ)+ln(e8/9)=ln(2/π)+ln(e8/9)+2ln(1/δ),

由于 ( 2 / π ) e 8 / 9 < 1.55 \left( {2/\pi }\right) {e}^{8/9} < {1.55} (2/π)e8/9<1.55,只要 c 2 > 2 ln ⁡ ( 1.25 / δ ) {c}^{2} > 2\ln \left( {{1.25}/\delta }\right) c2>2ln(1.25/δ),该条件就满足。

让我们将 R \mathbb{R} R划分为 R = R 1 ∪ R 2 \mathbb{R} = {R}_{1} \cup {R}_{2} R=R1R2,其中 R 1 = { x ∈ R : ∣ x ∣ ≤ {R}_{1} = \{ x \in \mathbb{R} : \left| x\right| \leq R1={xR:x c Δ f / ε } {c\Delta f}/\varepsilon \} cΔf/ε} R 2 = { x ∈ R : ∣ x ∣ > c Δ f / ε } {R}_{2} = \{ x \in \mathbb{R} : \left| x\right| > {c\Delta f}/\varepsilon \} R2={xR:x>cΔf/ε}。固定任何子集 S ⊆ R S \subseteq \mathbb{R} SR,并定义

S 1 = { f ( x ) + x ∣ x ∈ R 1 } {S}_{1} = \left\{ {f\left( x\right) + x \mid x \in {R}_{1}}\right\} S1={f(x)+xxR1}

S 2 = { f ( x ) + x ∣ x ∈ R 2 } . {S}_{2} = \left\{ {f\left( x\right) + x \mid x \in {R}_{2}}\right\} . S2={f(x)+xxR2}.

我们有

Pr ⁡ x ∼ N ( 0 , σ 2 ) [ f ( x ) + x ∈ S ] = Pr ⁡ x ∼ N ( 0 , σ 2 ) [ f ( x ) + x ∈ S 1 ] + Pr ⁡ x ∼ N ( 0 , σ 2 ) [ f ( x ) + x ∈ S 2 ] \mathop{\Pr }\limits_{{x \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) }}\left\lbrack {f\left( x\right) + x \in S}\right\rbrack = \mathop{\Pr }\limits_{{x \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) }}\left\lbrack {f\left( x\right) + x \in {S}_{1}}\right\rbrack + \mathop{\Pr }\limits_{{x \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) }}\left\lbrack {f\left( x\right) + x \in {S}_{2}}\right\rbrack xN(0,σ2)Pr[f(x)+xS]=xN(0,σ2)Pr[f(x)+xS1]+xN(0,σ2)Pr[f(x)+xS2]

≤ Pr ⁡ x ∼ N ( 0 , σ 2 ) [ f ( x ) + x ∈ S 1 ] + δ \leq \mathop{\Pr }\limits_{{x \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) }}\left\lbrack {f\left( x\right) + x \in {S}_{1}}\right\rbrack + \delta xN(0,σ2)Pr[f(x)+xS1]+δ

≤ e ε ( Pr ⁡ x ∼ N ( 0 , σ 2 ) [ f ( y ) + x ∈ S 1 ] ) + δ , \leq {e}^{\varepsilon }\left( {\mathop{\Pr }\limits_{{x \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) }}\left\lbrack {f\left( y\right) + x \in {S}_{1}}\right\rbrack }\right) + \delta , eε(xN(0,σ2)Pr[f(y)+xS1])+δ,

为一维高斯机制产生 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私。

高维情况。为了将其扩展到 R m {R}^{m} Rm 中的函数,定义 Δ f = {\Delta f} = Δf= Δ 2 f {\Delta }_{2}f Δ2f 。现在我们可以使用欧几里得范数重复上述论证。设 v v v 是满足 ∥ v ∥ ≤ Δ f \parallel v\parallel \leq {\Delta f} v∥≤Δf 的任意向量。对于固定的一对数据库 x , y x,y x,y ,我们关注 v = f ( x ) − f ( y ) v = f\left( x\right) - f\left( y\right) v=f(x)f(y) ,因为这是我们的噪声必须掩盖的内容。与一维情况一样,我们寻求 σ \sigma σ 满足的条件,使得隐私损失

∣ ln ⁡ e ( − 1 / 2 σ 2 ) ∥ x − μ ∥ 2 e ( − 1 / 2 σ 2 ) ∥ x + v − μ ∥ 2 ∣ \left| {\ln \frac{{e}^{\left( {-1/2{\sigma }^{2}}\right) \parallel x - \mu {\parallel }^{2}}}{{e}^{\left( {-1/2{\sigma }^{2}}\right) \parallel x + v - \mu {\parallel }^{2}}}}\right| lne(1/2σ2)x+vμ2e(1/2σ2)xμ2

ε \varepsilon ε 为界;这里 x x x N ( 0 , ∑ ) \mathcal{N}\left( {0,\sum }\right) N(0,) 中选取,其中 ( ∑ ) \left( \sum \right) () 是一个对角矩阵,其元素为 σ 2 {\sigma }^{2} σ2 ,因此 μ = ( 0 , … , 0 ) \mu = \left( {0,\ldots ,0}\right) μ=(0,,0)

∣ ln ⁡ e ( − 1 / 2 σ 2 ) ∥ x − μ ∥ 2 e ( − 1 / 2 σ 2 ) ∥ x + v − μ ∥ 2 ∣ = ∣ ln ⁡ e ( − 1 / 2 σ 2 ) [ ∥ x − μ ∥ 2 − ∥ x + v − μ ∥ 2 ] ∣ \left| {\ln \frac{{e}^{\left( {-1/2{\sigma }^{2}}\right) \parallel x - \mu {\parallel }^{2}}}{{e}^{\left( {-1/2{\sigma }^{2}}\right) \parallel x + v - \mu {\parallel }^{2}}}}\right| = \left| {\ln {e}^{\left( {-1/2{\sigma }^{2}}\right) \left\lbrack {\parallel x - \mu {\parallel }^{2} - \parallel x + v - \mu {\parallel }^{2}}\right\rbrack }}\right| lne(1/2σ2)x+vμ2e(1/2σ2)xμ2 = lne(1/2σ2)[xμ2x+vμ2]

= ∣ 1 2 σ 2 ( ∥ x ∥ 2 − ∥ x + v ∥ 2 ) ) ∣ . = \left| {\frac{1}{2{\sigma }^{2}}\left( {\parallel x{\parallel }^{2} - \parallel x + v{\parallel }^{2}}\right) )}\right| . = 2σ21(x2x+v2)) .

我们将利用球对称正态分布与其构成正态分布所选取的正交基无关这一事实,因此我们可以在与 v v v 对齐的基下进行研究。固定这样一个基 b 1 , … , b m {b}_{1},\ldots ,{b}_{m} b1,,bm ,通过首先抽取带符号的长度 λ i ∼ N ( 0 , σ 2 ) {\lambda }_{i} \sim \mathcal{N}\left( {0,{\sigma }^{2}}\right) λiN(0,σ2) (对于 i ∈ [ m ] i \in \left\lbrack m\right\rbrack i[m] ),然后定义 x [ i ] = λ i b i {x}^{\left\lbrack i\right\rbrack } = {\lambda }_{i}{b}_{i} x[i]=λibi ,最后令 x = ∑ i = 1 m x [ i ] x = \mathop{\sum }\limits_{{i = 1}}^{m}{x}^{\left\lbrack i\right\rbrack } x=i=1mx[i] 来抽取 x x x 。不失一般性地假设 b 1 {b}_{1} b1 v v v 平行。我们关注 ∣ ∥ x ∥ 2 − ∥ x + v ∥ 2 ∣ \left| {\parallel x{\parallel }^{2} - \parallel x + v{\parallel }^{2}}\right| x2x+v2

考虑以 v + x [ 1 ] v + {x}^{\left\lbrack 1\right\rbrack } v+x[1] 为底边且边 ∑ i = 2 m x [ i ] \mathop{\sum }\limits_{{i = 2}}^{m}{x}^{\left\lbrack i\right\rbrack } i=2mx[i] v v v 正交的直角三角形。该三角形的斜边为 x + v x + v x+v

∥ x + v ∥ 2 = ∥ v + x [ 1 ] ∥ 2 + ∑ i = 2 m ∥ x [ i ] ∥ 2 \parallel x + v{\parallel }^{2} = {\begin{Vmatrix}v + {x}^{\left\lbrack 1\right\rbrack }\end{Vmatrix}}^{2} + \mathop{\sum }\limits_{{i = 2}}^{m}{\begin{Vmatrix}{x}^{\left\lbrack i\right\rbrack }\end{Vmatrix}}^{2} x+v2= v+x[1] 2+i=2m x[i] 2

∥ x ∥ 2 = ∑ i = 1 m ∥ x [ i ] ∥ 2 . \parallel x{\parallel }^{2} = \mathop{\sum }\limits_{{i = 1}}^{m}{\begin{Vmatrix}{x}^{\left\lbrack i\right\rbrack }\end{Vmatrix}}^{2}. x2=i=1m x[i] 2.

由于 v v v x [ 1 ] {x}^{\left\lbrack 1\right\rbrack } x[1] 平行,我们有 ∥ v + x [ 1 ] ∥ 2 = ( ∥ v ∥ + λ 1 ) 2 {\begin{Vmatrix}v + {x}^{\left\lbrack 1\right\rbrack }\end{Vmatrix}}^{2} = {\left( \parallel v\parallel + {\lambda }_{1}\right) }^{2} v+x[1] 2=(v+λ1)2 。因此, ∥ x + v ∥ 2 − ∥ x ∥ 2 = ∥ v ∥ 2 + 2 λ 1 ⋅ ∥ v ∥ \parallel x + v{\parallel }^{2} - \parallel x{\parallel }^{2} = \parallel v{\parallel }^{2} + 2{\lambda }_{1} \cdot \parallel v\parallel x+v2x2=∥v2+2λ1v 。回想 ∥ v ∥ ≤ Δ f \parallel v\parallel \leq {\Delta f} v∥≤Δf ,并且 λ ∼ \lambda \sim λ N ( 0 , σ ) \mathcal{N}\left( {0,\sigma }\right) N(0,σ) ,所以现在我们恰好回到了一维情况,在方程A.2)中用 λ 1 {\lambda }_{1} λ1 代替 x x x

∣ 1 2 σ 2 ( ∥ x ∥ 2 − ∥ x + v ∥ 2 ) ) ∣ ≤ ∣ 1 2 σ 2 ( 2 λ 1 Δ f − ( Δ f ) 2 ) ∣ \left| {\frac{1}{2{\sigma }^{2}}\left( {\parallel x{\parallel }^{2} - \parallel x + v{\parallel }^{2}}\right) )}\right| \leq \left| {\frac{1}{2{\sigma }^{2}}\left( {2{\lambda }_{1}{\Delta f} - {\left( \Delta f\right) }^{2}}\right) }\right| 2σ21(x2x+v2)) 2σ21(2λ1Δf(Δf)2)

其余的论证过程如上所述。

高维情形的论证凸显了 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私( ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -differential privacy)存在但 ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0) -差分隐私( ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0) -differential privacy)不存在的一个弱点。固定一个数据库 x x x 。在 ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0) -差分隐私的情形下,不可区分性保证对所有相邻数据库同时成立。在 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私的情形下,不可区分性仅“前瞻性地”成立,即对于任何与 x x x 相邻的固定数据库 y y y ,该机制使对手能够区分 x x x y y y 的概率很小。在上述证明中,这表现为我们固定了 v = f ( x ) − f ( y ) v = f\left( x\right) - f\left( y\right) v=f(x)f(y) 这一事实;我们不必同时论证 v v v 的所有可能方向,而且实际上我们也无法做到,因为一旦我们固定了噪声向量 x ∼ N ( 0 , ∑ ) x \sim \mathcal{N}\left( {0,\sum }\right) xN(0,) ,使得在数据库 x x x 上的输出为 o = f ( x ) + x o = f\left( x\right) + x o=f(x)+x ,可能存在一个相邻的数据库 y y y ,使得当数据库为 y y y 时输出 o = f ( x ) + x o = f\left( x\right) + x o=f(x)+x 的可能性比在数据库 x x x 上大得多。

A.1 参考文献注释

定理A.1是一个业内常识,最初由文献[23]的作者观察到。对非球形高斯噪声的推广出现在文献[66]中。

B ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私( ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -DP)的组合定理

B.1 定理3.16的扩展

定理B.1。设 T 1 ( D ) : D ↦ T 1 ( D ) ∈ C 1 {T}_{1}\left( D\right) : D \mapsto {T}_{1}\left( D\right) \in {\mathcal{C}}_{1} T1(D):DT1(D)C1 是一个 ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私( ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -d.p.)函数,并且对于任何 s 1 ∈ C 1 , T 2 ( D , s 1 ) : ( D , s 1 ) ↦ T 2 ( D , s 1 ) ∈ C 2 {s}_{1} \in {\mathcal{C}}_{1},{T}_{2}\left( {D,{s}_{1}}\right) : \left( {D,{s}_{1}}\right) \mapsto {T}_{2}\left( {D,{s}_{1}}\right) \in {\mathcal{C}}_{2} s1C1,T2(D,s1):(D,s1)T2(D,s1)C2 ,在给定第二个输入 s 1 {s}_{1} s1 的情况下, s 1 ∈ C 1 , T 2 ( D , s 1 ) : ( D , s 1 ) ↦ T 2 ( D , s 1 ) ∈ C 2 {s}_{1} \in {\mathcal{C}}_{1},{T}_{2}\left( {D,{s}_{1}}\right) : \left( {D,{s}_{1}}\right) \mapsto {T}_{2}\left( {D,{s}_{1}}\right) \in {\mathcal{C}}_{2} s1C1,T2(D,s1):(D,s1)T2(D,s1)C2 是一个 ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私( ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -d.p.)函数。然后我们证明,对于任何相邻的 D , D ′ D,{D}^{\prime } D,D ,对于任何 S ⊆ C 2 × C 1 S \subseteq {\mathcal{C}}_{2} \times {\mathcal{C}}_{1} SC2×C1 ,使用我们论文中的符号,我们有

P ( ( T 2 , T 1 ) ∈ S ) ≤ e 2 ϵ P ′ ( ( T 2 , T 1 ) ∈ S ) + 2 δ . (B.1) P\left( {\left( {{T}_{2},{T}_{1}}\right) \in S}\right) \leq {e}^{2\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{T}_{1}}\right) \in S}\right) + {2\delta }. \tag{B.1} P((T2,T1)S)e2ϵP((T2,T1)S)+2δ.(B.1)

证明。对于任何 C 1 ⊆ C 1 {C}_{1} \subseteq {\mathcal{C}}_{1} C1C1 ,定义

μ ( C 1 ) = ( P ( T 1 ∈ C 1 ) − e ϵ P ′ ( T 1 ∈ C 1 ) ) + , \mu \left( {C}_{1}\right) = {\left( P\left( {T}_{1} \in {C}_{1}\right) - {e}^{\epsilon }{P}^{\prime }\left( {T}_{1} \in {C}_{1}\right) \right) }_{ + }, μ(C1)=(P(T1C1)eϵP(T1C1))+,

那么 μ \mu μ C 1 {\mathcal{C}}_{1} C1 μ ( C 1 ) ≤ δ \mu \left( {\mathcal{C}}_{1}\right) \leq \delta μ(C1)δ 上的一个测度,因为 T 1 {T}_{1} T1 ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私( ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -d.p.)的。因此,对于所有的 s 1 ∈ C 1 {s}_{1} \in {\mathcal{C}}_{1} s1C1 ,我们有

P ( T 1 ∈ d s 1 ) ≤ e ϵ P ′ ( T 1 ∈ d s 1 ) + μ ( d s 1 ) . (B.2) P\left( {{T}_{1} \in d{s}_{1}}\right) \leq {e}^{\epsilon }{P}^{\prime }\left( {{T}_{1} \in d{s}_{1}}\right) + \mu \left( {d{s}_{1}}\right) . \tag{B.2} P(T1ds1)eϵP(T1ds1)+μ(ds1).(B.2)

还要注意,根据 ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私( ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -d.p.)的定义,对于任何 s 1 ∈ C 1 {s}_{1} \in {\mathcal{C}}_{1} s1C1

P ( ( T 2 , s 1 ) ∈ S ) ≤ ( e ϵ P ′ ( ( T 2 , s 1 ) ∈ S ) + δ ) ∧ 1 P\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) \leq \left( {{e}^{\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) + \delta }\right) \land 1 P((T2,s1)S)(eϵP((T2,s1)S)+δ)1

≤ ( e ϵ P ′ ( ( T 2 , s 1 ) ∈ S ) ) ∧ 1 + δ . (B.3) \leq \left( {{e}^{\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) }\right) \land 1 + \delta . \tag{B.3} (eϵP((T2,s1)S))1+δ.(B.3)

然后(B.2)和(B.3)推出(B.1):

P ( ( T 2 , T 1 ) ∈ S ) ≤ ∫ S 1 P ( ( T 2 , s 1 ) ∈ S ) P ( T 1 ∈ d s 1 ) P\left( {\left( {{T}_{2},{T}_{1}}\right) \in S}\right) \leq {\int }_{{S}_{1}}P\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) P\left( {{T}_{1} \in d{s}_{1}}\right) P((T2,T1)S)S1P((T2,s1)S)P(T1ds1)

≤ ∫ S 1 ( ( e ϵ P ′ ( ( T 2 , s 1 ) ∈ S ) ) ∧ 1 + δ ) P ( T 1 ∈ d s 1 ) \leq {\int }_{{S}_{1}}\left( {\left( {{e}^{\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) }\right) \land 1 + \delta }\right) P\left( {{T}_{1} \in d{s}_{1}}\right) S1((eϵP((T2,s1)S))1+δ)P(T1ds1)

≤ ∫ S 1 ( ( e ϵ P ′ ( ( T 2 , s 1 ) ∈ S ) ) ∧ 1 ) P ( T 1 ∈ d s 1 ) + δ \leq {\int }_{{S}_{1}}\left( {\left( {{e}^{\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) }\right) \land 1}\right) P\left( {{T}_{1} \in d{s}_{1}}\right) + \delta S1((eϵP((T2,s1)S))1)P(T1ds1)+δ

≤ ∫ S 1 ( ( e ϵ P ′ ( ( T 2 , s 1 ) ∈ S ) ) ∧ 1 ) \leq {\int }_{{S}_{1}}\left( {\left( {{e}^{\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) }\right) \land 1}\right) S1((eϵP((T2,s1)S))1)

× ( e ϵ P ′ ( T 1 ∈ d s 1 ) + μ ( d s 1 ) ) + δ \times \left( {{e}^{\epsilon }{P}^{\prime }\left( {{T}_{1} \in d{s}_{1}}\right) + \mu \left( {d{s}_{1}}\right) }\right) + \delta ×(eϵP(T1ds1)+μ(ds1))+δ

≤ e 2 ϵ ∫ S 1 P ′ ( ( T 2 , s 1 ) ∈ S ) P ′ ( T 1 ∈ d s 1 ) + μ ( S 1 ) + δ \leq {e}^{2\epsilon }{\int }_{{S}_{1}}{P}^{\prime }\left( {\left( {{T}_{2},{s}_{1}}\right) \in S}\right) {P}^{\prime }\left( {{T}_{1} \in d{s}_{1}}\right) + \mu \left( {S}_{1}\right) + \delta e2ϵS1P((T2,s1)S)P(T1ds1)+μ(S1)+δ

≤ e 2 ϵ P ′ ( ( T 2 , T 1 ) ∈ S ) + 2 δ . (B.4) \leq {e}^{2\epsilon }{P}^{\prime }\left( {\left( {{T}_{2},{T}_{1}}\right) \in S}\right) + {2\delta }. \tag{B.4} e2ϵP((T2,T1)S)+2δ.(B.4)

在上述方程中, S 1 {S}_{1} S1 表示 S S S C 1 {\mathcal{C}}_{1} C1 上的投影。事件 { ( T 2 , s 1 ) ∈ S } \left\{ {\left( {{T}_{2},{s}_{1}}\right) \in S}\right\} {(T2,s1)S} 指的是 { ( T 2 ( D , s 1 ) , s 1 ) ∈ S } \left\{ {\left( {{T}_{2}\left( {D,{s}_{1}}\right) ,{s}_{1}}\right) \in S}\right\} {(T2(D,s1),s1)S}(或 { ( T 2 ( D ′ , s 1 ) , s 1 ) ∈ S ) } \left\{ \left( {{T}_{2}\left( {{D}^{\prime },{s}_{1}}\right) ,{s}_{1}) \in S}\right) \right\} {(T2(D,s1),s1)S)})。

使用归纳法,我们有:

推论 B.2 ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私( ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -d.p.)算法的一般组合定理)。设 T 1 : D ↦ T 1 ( D ) {T}_{1} : D \mapsto {T}_{1}\left( D\right) T1:DT1(D) ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私的,并且对于 k ≥ 2 , T k k \geq 2,{T}_{k} k2,Tk ( D , s 1 , … , s k − 1 ) ↦ T k ( D , s 1 , … , s k − 1 ) ∈ C k \left( {D,{s}_{1},\ldots ,{s}_{k - 1}}\right) \mapsto {T}_{k}\left( {D,{s}_{1},\ldots ,{s}_{k - 1}}\right) \in {\mathcal{C}}_{k} (D,s1,,sk1)Tk(D,s1,,sk1)Ck ( ϵ , δ ) \left( {\epsilon ,\delta }\right) (ϵ,δ) -差分隐私的,对于所有给定的 ( s k − 1 , … , s 1 ) ∈ ⨂ j = 1 k − 1 C j \left( {{s}_{k - 1},\ldots ,{s}_{1}}\right) \in {\bigotimes }_{j = 1}^{k - 1}{\mathcal{C}}_{j} (sk1,,s1)j=1k1Cj。那么对于所有相邻的 D , D ′ D,{D}^{\prime } D,D 和所有 S ⊆ ⨂ j = 1 k C j S \subseteq {\bigotimes }_{j = 1}^{k}{\mathcal{C}}_{j} Sj=1kCj

P ( ( T 1 , … , T k ) ∈ S ) ≤ e k ϵ P ′ ( ( T 1 , … , T k ) ∈ S ) + k δ . P\left( {\left( {{T}_{1},\ldots ,{T}_{k}}\right) \in S}\right) \leq {e}^{k\epsilon }{P}^{\prime }\left( {\left( {{T}_{1},\ldots ,{T}_{k}}\right) \in S}\right) + {k\delta }. P((T1,,Tk)S)ekϵP((T1,,Tk)S)+kδ.

致谢

我们要感谢许多人对本书早期草稿提供了细致的评论和修正,其中包括维塔利·费尔德曼(Vitaly Feldman)、贾斯汀·许(Justin Hsu)、西蒙·加芬克尔(Simson Garfinkel)、卡特里娜·利格特(Katrina Ligett)、董琳(Dong Lin)、大卫·帕克斯(David Parkes)、瑞安·罗杰斯(Ryan Rogers)、盖伊·罗斯布卢姆(Guy Rothblum)、伊恩·施穆特(Ian Schmutte)、乔恩·厄尔曼(Jon Ullman)、萨利尔·瓦德汉(Salil Vadhan)、史蒂文·吴志伟(Zhiwei Steven Wu)以及匿名评审人员。本书曾用于萨利尔·瓦德汉和乔恩·厄尔曼教授的课程,他们的学生也提供了细致的反馈。本书还得益于与许多其他同事的交流,其中包括莫里茨·哈德特(Moritz Hardt)、伊利亚·米罗诺夫(Ilya Mironov)、萨肖·尼科洛夫(Sasho Nikolov)、科比·尼斯姆(Kobbi Nissim)、马勒什·派(Mallesh Pai)、本杰明·皮尔斯(Benjamin Pierce)、亚当·史密斯(Adam Smith)、阿布拉迪普·塔库尔塔(Abhradeep Thakurta)、阿比舍克·鲍米克(Abhishek Bhowmick)、库纳尔·塔尔瓦尔(Kunal Talwar)和张立(Li Zhang)。我们感谢马杜·苏丹(Madhu Sudan)提议撰写这本专著。

参考文献

[1] S. Arora, E. Hazan, and S. Kale. The multiplicative weights update method: A meta-algorithm and applications. Theory of Computing, 8(1):121-164, 2012.

[1] S. 阿罗拉(S. Arora)、E. 哈赞(E. Hazan)和 S. 卡莱(S. Kale)。乘法权重更新方法:一种元算法及其应用。《计算理论》,8(1):121 - 164,2012 年。

[2] M.-F. Balcan, A. Blum, J. D. Hartline, and Y. Mansour. Mechanism design via machine learning. In Foundations of Computer Science, 2005. FOCS 2005. 46th Annual IEEE Symposium on, pages 605-614. IEEE, 2005.

[2] M.-F. 巴尔坎(M.-F. Balcan)、A. 布卢姆(A. Blum)、J. D. 哈特林(J. D. Hartline)和 Y. 曼苏尔(Y. Mansour)。通过机器学习进行机制设计。见《计算机科学基础》,2005 年第 46 届 IEEE 年度研讨会(FOCS 2005),第 605 - 614 页。IEEE,2005 年。

[3] A. Beimel, S. P. Kasiviswanathan, and K. Nissim. Bounds on the sample complexity for private learning and private data release. In Theory of Cryptography, pages 437-454. Springer, 2010.

[3] A. 贝梅尔(A. Beimel)、S. P. 卡西维斯瓦纳坦(S. P. Kasiviswanathan)和 K. 尼斯姆(K. Nissim)。隐私学习和隐私数据发布的样本复杂度界限。见《密码学理论》,第 437 - 454 页。施普林格出版社,2010 年。

[4] A. Beimel, K. Nissim, and U. Stemmer. Characterizing the sample complexity of private learners. In Proceedings of the Conference on Innovations in Theoretical Computer Science, pages 97-110. Association for Computing Machinery, 2013.

[4] A. 贝梅尔(A. Beimel)、K. 尼斯姆(K. Nissim)和 U. 施泰默(U. Stemmer)。刻画隐私学习者的样本复杂度。见《理论计算机科学创新会议论文集》,第 97 - 110 页。美国计算机协会,2013 年。

[5] A. Bhaskara, D. Dadush, R. Krishnaswamy, and K. Talwar. Unconditional differentially private mechanisms for linear queries. In H. J. Karloff and T. Pitassi, editors, Proceedings of the Symposium on Theory of Computing Conference, Symposium on Theory of Computing, New York, NY, USA, May 19-22, 2012, pages 1269-1284. 2012.

[5] A. 巴斯卡拉(A. Bhaskara)、D. 达杜什(D. Dadush)、R. 克里希纳斯瓦米(R. Krishnaswamy)和 K. 塔尔瓦尔(K. Talwar)。线性查询的无条件差分隐私机制。见 H. J. 卡洛夫(H. J. Karloff)和 T. 皮塔西(T. Pitassi)编,《计算理论研讨会会议录》,计算理论研讨会,美国纽约州纽约市,2012 年 5 月 19 - 22 日,第 1269 - 1284 页。2012 年。

[6] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: the SuLQ framework. In Chen Li, editor, Principles of Database Systems, pages 128-138. ACM, 2005.

[6] A. 布卢姆(A. Blum)、C. 德沃克(C. Dwork)、F. 麦克谢里(F. McSherry)和 K. 尼斯姆(K. Nissim)。实用隐私:SuLQ 框架。见陈力(Chen Li)主编,《数据库系统原理》,第 128 - 138 页。美国计算机协会(ACM),2005 年。

[7] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: the sulq framework. In Principles of Database Systems. 2005.

[7] A. 布卢姆(A. Blum)、C. 德沃克(C. Dwork)、F. 麦克谢里(F. McSherry)和 K. 尼斯姆(K. Nissim)。实用隐私:sulq 框架。见《数据库系统原理》。2005 年。

[8] A. Blum, K. Ligett, and A. Roth. A learning theory approach to noninteractive database privacy. In Cynthia Dwork, editor, Symposium on Theory of Computing, pages 609-618. Association for Computing Machinery, 2008.

[8] A. 布卢姆(A. Blum)、K. 利格特(K. Ligett)和 A. 罗斯(A. Roth)。一种用于非交互式数据库隐私的学习理论方法。见辛西娅·德沃克(Cynthia Dwork)主编,《计算理论研讨会》,第 609 - 618 页。美国计算机协会(Association for Computing Machinery),2008 年。

[9] A. Blum and Y. Monsour. Learning, regret minimization, and equilibria, 2007.

[9] A. 布卢姆(A. Blum)和 Y. 蒙苏尔(Y. Monsour)。学习、后悔最小化与均衡,2007 年。

[10] J. L. Casti. Five Golden Rules: Great Theories of 20th-Century Mathematics and Why They Matter. Wiley, 1996.

[10] J. L. 卡斯蒂(J. L. Casti)。《五大黄金法则:20 世纪数学的伟大理论及其重要性》。威利出版社(Wiley),1996 年。

[11] T. H. Hubert Chan, E. Shi, and D. Song. Private and continual release of statistics. In Automata, Languages and Programming, pages 405-417. Springer, 2010.

[11] T. H. 休伯特·陈(T. H. Hubert Chan)、E. 施(E. Shi)和 D. 宋(D. Song)。统计数据的私密且持续发布。见《自动机、语言与程序设计》,第 405 - 417 页。施普林格出版社(Springer),2010 年。

[12] K. Chaudhuri and D. Hsu. Sample complexity bounds for differentially private learning. In Proceedings of the Annual Conference on Learning Theory (COLT 2011). 2011.

[12] K. 乔杜里(K. Chaudhuri)和 D. 许(D. Hsu)。差分隐私学习的样本复杂度界限。见《年度学习理论会议论文集(COLT 2011)》。2011 年。

[13] K. Chaudhuri, C. Monteleoni, and A. D. Sarwate. Differentially private empirical risk minimization. Journal of machine learning research: JMLR, 12:1069, 2011.

[13] K. 乔杜里(K. Chaudhuri)、C. 蒙特莱奥尼(C. Monteleoni)和 A. D. 萨尔瓦特(A. D. Sarwate)。差分隐私经验风险最小化。《机器学习研究杂志:JMLR》,12:1069,2011 年。

[14] K. Chaudhuri, A. Sarwate, and K. Sinha. Near-optimal differentially private principal components. In Advances in Neural Information Processing Systems 25, pages 998-1006. 2012.

[14] K. 乔杜里(K. Chaudhuri)、A. 萨尔瓦特(A. Sarwate)和 K. 辛哈(K. Sinha)。近乎最优的差分隐私主成分分析。见《神经信息处理系统进展 25》,第 998 - 1006 页。2012 年。

[15] Y. Chen, S. Chong, I. A. Kash, T. Moran, and S. P. Vadhan. Truthful mechanisms for agents that value privacy. Association for Computing Machinery Conference on Electronic Commerce, 2013.

[15] Y. 陈(Y. Chen)、S. 崇(S. Chong)、I. A. 卡什(I. A. Kash)、T. 莫兰(T. Moran)和 S. P. 瓦德汉(S. P. Vadhan)。重视隐私的代理的诚实机制。美国计算机协会电子商务会议,2013 年。

[16] P. Dandekar, N. Fawaz, and S. Ioannidis. Privacy auctions for recommender systems. In Internet and Network Economics, pages 309-322. Springer, 2012.

[16] P. 丹德卡尔(P. Dandekar)、N. 法瓦兹(N. Fawaz)和 S. 约安尼迪斯(S. Ioannidis)。推荐系统的隐私拍卖。见《互联网与网络经济学》,第 309 - 322 页。施普林格出版社(Springer),2012 年。

[17] A. De. Lower bounds in differential privacy. In Theory of Cryptography Conference, pages 321-338. 2012.

[17] A. 德(A. De)。差分隐私的下界。见《密码学理论会议》,第 321 - 338 页。2012 年。

[18] I. Dinur and K. Nissim. Revealing information while preserving privacy. In Proceedings of the Association for Computing Machinery SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, pages 202-210. 2003.

[18] I. 迪努尔(I. Dinur)和 K. 尼斯姆(K. Nissim)。在保护隐私的同时披露信息。见《美国计算机协会 SIGACT - SIGMOD - SIGART 数据库系统原理研讨会论文集》,第 202 - 210 页。2003 年。

[19] J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. arXiv preprint arXiv:1302.3203, 2013.

[19] J. C. 杜奇(J. C. Duchi)、M. I. 乔丹(M. I. Jordan)和 M. J. 温赖特(M. J. Wainwright)。局部隐私与统计极小极大率。预印本 arXiv:1302.3203,2013 年。

[20] C. Dwork. Differential privacy. In Proceedings of the International Colloquium on Automata, Languages and Programming (ICALP)(2), pages 1-12. 2006.

[20] C. 德沃克(C. Dwork)。差分隐私。见《自动机、语言与程序设计国际学术讨论会论文集(ICALP)(2)》,第 1 - 12 页。2006 年。

[21] C. Dwork, K. Kenthapadi, F. McSherry, I. Mironov, and M. Naor. Our data, ourselves: Privacy via distributed noise generation. In EURO- C R Y P T {CRYPT} CRYPT ,pages 486 − 503.2006 {486} - {503.2006} 486503.2006 .

[21] C. 德沃克(C. Dwork)、K. 肯塔帕迪(K. Kenthapadi)、F. 麦克谢里(F. McSherry)、I. 米罗诺夫(I. Mironov)和 M. 纳奥尔(M. Naor)。我们的数据,我们自己:通过分布式噪声生成实现隐私。见 EURO - C R Y P T {CRYPT} CRYPT,第 486 − 503.2006 {486} - {503.2006} 486503.2006 页。

[22] C. Dwork and J. Lei. Differential privacy and robust statistics. In Proceedings of the 2009 International Association for Computing Machinery Symposium on Theory of Computing (STOC). 2009.

[22] C. Dwork和J. Lei。差分隐私与鲁棒统计。见《2009年美国计算机协会计算理论研讨会(STOC)会议录》。2009年。

[23] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. In Theory of Cryptography Conference '06, pages 265-284. 2006.

[23] C. Dwork、F. McSherry、K. Nissim和A. Smith。在隐私数据分析中根据敏感度校准噪声。见《2006年密码学理论会议》,第265 - 284页。2006年。

[24] C. Dwork, F. McSherry, and K. Talwar. The price of privacy and the limits of lp decoding. In Proceedings of the Association for Computing Machinery Symposium on Theory of Computing, pages 85-94. 2007.

[24] C. Dwork、F. McSherry和K. Talwar。隐私的代价与lp解码的极限。见《美国计算机协会计算理论研讨会会议录》,第85 - 94页。2007年。

[25] C. Dwork and M. Naor. On the difficulties of disclosure prevention in statistical databases or the case for differential privacy. Journal of Privacy and Confidentiality, 2010.

[25] C. Dwork和M. Naor。统计数据库中防止信息泄露的困难或差分隐私的必要性。《隐私与保密期刊》,2010年。

[26] C. Dwork, M. Naor, T. Pitassi, and G. N. Rothblum. Differential privacy under continual observation. In Proceedings of the Association for Computing Machinery Symposium on Theory of Computing, pages 715-724. Association for Computing Machinery, 2010.

[26] C. Dwork、M. Naor、T. Pitassi和G. N. Rothblum。持续观察下的差分隐私。见《美国计算机协会计算理论研讨会会议录》,第715 - 724页。美国计算机协会,2010年。

[27] C. Dwork, M. Naor, T. Pitassi, G. N. Rothblum, and Sergey Yekhanin. Pan-private streaming algorithms. In Proceedings of International Conference on Super Computing. 2010.

[27] C. Dwork、M. Naor、T. Pitassi、G. N. Rothblum和Sergey Yekhanin。泛隐私流算法。见《国际超级计算会议会议录》。2010年。

[28] C. Dwork, M. Naor, O. Reingold, G. N. Rothblum, and S. P. Vadhan. On the complexity of differentially private data release: Efficient algorithms and hardness results. In Symposium on Theory of Computing '09, pages 381-390. 2009.

[28] C. Dwork、M. Naor、O. Reingold、G. N. Rothblum和S. P. Vadhan。差分隐私数据发布的复杂性:高效算法与困难性结果。见《2009年计算理论研讨会》,第381 - 390页。2009年。

[29] C. Dwork, M. Naor, and S. Vadhan. The privacy of the analyst and the power of the state. In Foundations of Computer Science. 2012.

[29] C. Dwork、M. Naor和S. Vadhan。分析师的隐私与国家的权力。见《计算机科学基础》。2012年。

[30] C. Dwork, A. Nikolov, and K. Talwar. Efficient algorithms for privately releasing marginals via convex relaxations. In Proceedings of the Annual Symposium on Computational Geometry (SoCG). 2014.

[30] C. Dwork、A. Nikolov和K. Talwar。通过凸松弛实现隐私地发布边际分布的高效算法。见《年度计算几何研讨会(SoCG)会议录》。2014年。

[31] C. Dwork and K. Nissim. Privacy-preserving datamining on vertically partitioned databases. In Proceedings of Cryptology 2004, vol. 3152, pages 528-544. 2004.

[31] C. Dwork和K. Nissim。垂直分区数据库上的隐私保护数据挖掘。见《2004年密码学会议录》,第3152卷,第528 - 544页。2004年。

[32] C. Dwork, G. N. Rothblum, and S. P. Vadhan. Boosting and differential privacy. In Foundations of Computer Science, pages 51-60. 2010.

[32] C. Dwork、G. N. Rothblum和S. P. Vadhan。提升与差分隐私。见《计算机科学基础》,第51 - 60页。2010年。

[33] C. Dwork, K. Talwar, A. Thakurta, and L. Zhang. Analyze gauss: Optimal bounds for privacy-preserving pca. In Symposium on Theory of Computing. 2014.

[33] C. Dwork、K. Talwar、A. Thakurta和L. Zhang。分析高斯分布:隐私保护主成分分析的最优界。见《计算理论研讨会》。2014年。

[34] L. Fleischer and Y.-H. Lyu. Approximately optimal auctions for selling privacy when costs are correlated with data. In Association for Computing Machinery Conference on Electronic Commerce, pages 568-585. 2012.

[34] L. Fleischer和Y.-H. Lyu。当成本与数据相关时,出售隐私的近似最优拍卖。见《美国计算机协会电子商务会议》,第568 - 585页。2012年。

[35] A. Ghosh and K. Ligett. Privacy and coordination: Computing on databases with endogenous participation. In Proceedings of the fourteenth A C M {ACM} ACM conference on Electronic commerce (EC), pages 543-560, 2013.

[35] A. Ghosh和K. Ligett。隐私与协调:具有内生参与的数据库计算。见《第十四届 A C M {ACM} ACM电子商务会议(EC)会议录》,第543 - 560页,2013年。

[36] A. Ghosh and A. Roth. Selling privacy at auction. In Association for Computing Machinery Conference on Electronic Commerce, pages 199- 208. 2011.

[36] A. Ghosh和A. Roth。通过拍卖出售隐私。见《美国计算机协会电子商务会议》,第199 - 208页。2011年。

[37] A. Groce, J. Katz, and A. Yerukhimovich. Limits of computational differential privacy in the client/server setting. In Proceedings of the Theory of Cryptography Conference. 2011.

[37] A. Groce、J. Katz和A. Yerukhimovich。客户端/服务器环境下计算差分隐私的极限。见《密码学理论会议会议录》。2011年。

[38] A. Gupta, M. Hardt, A. Roth, and J. Ullman. Privately releasing conjunctions and the statistical query barrier. In Symposium on Theory of Computing '11, pages 803-812. 2011.

[38] A. 古普塔(A. Gupta)、M. 哈特(M. Hardt)、A. 罗斯(A. Roth)和 J. 厄尔曼(J. Ullman)。私密发布合取式与统计查询障碍。见《2011 年计算理论研讨会论文集》,第 803 - 812 页。2011 年。

[39] A. Gupta, A. Roth, and J. Ullman. Iterative constructions and private data release. In Theory of Cryptography Conference, pages 339-356. 2012.

[39] A. 古普塔(A. Gupta)、A. 罗斯(A. Roth)和 J. 厄尔曼(J. Ullman)。迭代构造与私密数据发布。见《密码学理论会议论文集》,第 339 - 356 页。2012 年。

[40] J. Håstad, R. Impagliazzo, L. Levin, and M. Luby. A pseudorandom generator from any one-way function. SIAM Journal of Computing, 28, 1999.

[40] J. 哈斯塔德(J. Håstad)、R. 因帕利亚佐(R. Impagliazzo)、L. 莱文(L. Levin)和 M. 卢比(M. Luby)。基于任意单向函数的伪随机生成器。《工业与应用数学学会计算杂志》,28 卷,1999 年。

[41] M. Hardt, K. Ligett, and F. McSherry. A simple and practical algorithm for differentially private data release. In Advances in Neural Information Processing Systems 25, pages 2348-2356. 2012.

[41] M. 哈特(M. Hardt)、K. 利格特(K. Ligett)和 F. 麦克谢里(F. McSherry)。一种简单实用的差分隐私数据发布算法。见《神经信息处理系统进展 25》,第 2348 - 2356 页。2012 年。

[42] M. Hardt and A. Roth. Beating randomized response on incoherent matrices. In Proceedings of the Symposium on Theory of Computing, pages 1255-1268. Association for Computing Machinery, 2012.

[42] M. 哈特(M. Hardt)和 A. 罗斯(A. Roth)。在非相干矩阵上超越随机响应。见《计算理论研讨会论文集》,第 1255 - 1268 页。美国计算机协会,2012 年。

[43] M. Hardt and A. Roth. Beyond worst-case analysis in private singular vector computation. In Proceedings of the Symposium on Theory of Computing. 2013.

[43] M. 哈特(M. Hardt)和 A. 罗斯(A. Roth)。私密奇异向量计算中的超越最坏情况分析。见《计算理论研讨会论文集》。2013 年。

[44] M. Hardt and G. N. Rothblum. A multiplicative weights mechanism for privacy-preserving data analysis. In Foundations of Computer Science, pages 61-70. IEEE Computer Society, 2010.

[44] M. 哈特(M. Hardt)和 G. N. 罗斯布卢姆(G. N. Rothblum)。一种用于隐私保护数据分析的乘法权重机制。见《计算机科学基础研讨会论文集》,第 61 - 70 页。电气与电子工程师协会计算机学会,2010 年。

[45] M. Hardt and K. Talwar. On the geometry of differential privacy. In Proceedings of the Association for Computing Machinery Symposium on Theory of Computing, pages 705-714. Association for Computing Machinery, 2010.

[45] M. 哈特(M. Hardt)和 K. 塔尔瓦尔(K. Talwar)。关于差分隐私的几何性质。见《美国计算机协会计算理论研讨会论文集》,第 705 - 714 页。美国计算机协会,2010 年。

[46] N. Homer, S. Szelinger, M. Redman, D. Duggan, W. Tembe, J. Muehling, J. Pearson, D. Stephan, S. Nelson, and D. Craig. Resolving individuals contributing trace amounts of dna to highly complex mixtures using high-density snp genotyping microarrays. PLoS Genet, 4, 2008.

[46] N. 霍默(N. Homer)、S. 泽林格(S. Szelinger)、M. 雷德曼(M. Redman)、D. 杜根(D. Duggan)、W. 坦贝(W. Tembe)、J. 米林(J. Muehling)、J. 皮尔逊(J. Pearson)、D. 斯蒂芬(D. Stephan)、S. 尼尔森(S. Nelson)和 D. 克雷格(D. Craig)。使用高密度单核苷酸多态性基因分型微阵列解析对高度复杂混合物贡献微量 DNA 的个体。《公共科学图书馆·遗传学》,4 卷,2008 年。

[47] J. Hsu, Z. Huang, A. Roth, T. Roughgarden, and Z. S. Wu. Private matchings and allocations. arXiv preprint arXiv:1311.2828, 2013.

[47] J. 许(J. Hsu)、Z. 黄(Z. Huang)、A. 罗斯(A. Roth)、T. 拉夫加登(T. Roughgarden)和 Z. S. 吴(Z. S. Wu)。私密匹配与分配。预印本 arXiv:1311.2828,2013 年。

[48] J. Hsu, A. Roth, and J. Ullman. Differential privacy for the analyst via private equilibrium computation. In Proceedings of the Association for Computing Machinery Symposium on Theory of Computing (STOC), pages 341-350, 2013.

[48] J. 许(J. Hsu)、A. 罗斯(A. Roth)和 J. 厄尔曼(J. Ullman)。通过私密均衡计算为分析师实现差分隐私。见《美国计算机协会计算理论研讨会(STOC)论文集》,第 341 - 350 页,2013 年。

[49] Z. Huang and S. Kannan. The exponential mechanism for social welfare: Private, truthful, and nearly optimal. In IEEE Annual Symposium on the Foundations of Computer Science (FOCS), pages 140-149. 2012.

[49] Z. 黄(Z. Huang)和 S. 坎南(S. Kannan)。用于社会福利的指数机制:私密、真实且近乎最优。见《电气与电子工程师协会计算机科学基础年度研讨会(FOCS)论文集》,第 140 - 149 页。2012 年。

[50] P. Jain, P. Kothari, and A. Thakurta. Differentially private online learning. Journal of Machine Learning Research - Proceedings Track, 23:24.1-24.34, 2012.

[50] P. 贾因(P. Jain)、P. 科塔里(P. Kothari)和 A. 塔库尔塔(A. Thakurta)。差分隐私在线学习。《机器学习研究杂志 - 会议录专刊》,23:24.1 - 24.34,2012 年。

[51] M. Kapralov and K. Talwar. On differentially private low rank approximation. In Sanjeev Khanna, editor, Symposium on Discrete Algorthims, pages 1395-1414. SIAM, 2013.

[51] M. 卡普拉洛夫(M. Kapralov)和 K. 塔尔瓦尔(K. Talwar)。关于差分隐私低秩逼近。见桑吉夫·坎纳(Sanjeev Khanna)主编的《离散算法研讨会论文集》,第 1395 - 1414 页。工业与应用数学学会,2013 年。

[52] S. P. Kasiviswanathan, H. K. Lee, Kobbi Nissim, S. Raskhodnikova, and A. Smith. What can we learn privately? SIAM Journal on Computing, 40(3):793-826, 2011.

[52] S. P. 卡西维斯瓦纳坦(S. P. Kasiviswanathan)、H. K. 李(H. K. Lee)、科比·尼斯姆(Kobbi Nissim)、S. 拉斯霍德尼科娃(S. Raskhodnikova)和 A. 史密斯(A. Smith)。我们能私密地学习什么?《工业与应用数学学会计算杂志》,40(3):793 - 826,2011 年。

[53] M. Kearns. Efficient noise-tolerant learning from statistical queries. Journal of the Association for Computing Machinery (JAssociation for Computing Machinery), 45(6):983-1006, 1998.

[53] M. 凯恩斯(M. Kearns)。基于统计查询的高效容错学习。《美国计算机协会杂志》(JAssociation for Computing Machinery),45(6):983 - 1006,1998 年。

[54] M. Kearns, M. Pai, A. Roth, and J. Ullman. Mechanism design in large games: Incentives and privacy. In Proceedings of the 5th conference on Innovations in theoretical computer science (ITCS), 2014.

[54] M. 卡恩斯(M. Kearns)、M. 派伊(M. Pai)、A. 罗斯(A. Roth)和 J. 厄尔曼(J. Ullman)。大型博弈中的机制设计:激励与隐私。见第五届理论计算机科学创新会议(ITCS)论文集,2014 年。

[55] D. Kifer, A. Smith, and A. Thakurta. Private convex empirical risk minimization and high-dimensional regression. Journal of Machine Learning Research, 1:41, 2012.

[55] D. 基弗(D. Kifer)、A. 史密斯(A. Smith)和 A. 塔库尔塔(A. Thakurta)。私有凸经验风险最小化与高维回归。《机器学习研究杂志》,1:41,2012 年。

[56] K. Ligett and A. Roth. Take it or leave it: Running a survey when privacy comes at a cost. In Internet and Network Economics, pages 378-391. Springer, 2012.

[56] K. 利格特(K. Ligett)和 A. 罗斯(A. Roth)。接受或放弃:当隐私需要付出代价时进行调查。见《互联网与网络经济学》,第 378 - 391 页。施普林格出版社,2012 年。

[57] N. Littlestone and M. K. Warmuth. The weighted majority algorithm. In Annual Symposium on Foundations of Computer Science, 1989, pages 256-261. IEEE, 1989.

[57] N. 利特尔斯特恩(N. Littlestone)和 M. K. 瓦尔穆斯(M. K. Warmuth)。加权多数算法。见年度计算机科学基础研讨会,1989 年,第 256 - 261 页。电气与电子工程师协会(IEEE),1989 年。

[58] A. McGregor, I. Mironov, T. Pitassi, O. Reingold, K. Talwar, and S. P. Vadhan. The limits of two-party differential privacy. In Foundations of Computer Science, pages 81-90. IEEE Computer Society, 2010.

[58] A. 麦格雷戈(A. McGregor)、I. 米罗诺夫(I. Mironov)、T. 皮塔西(T. Pitassi)、O. 赖因戈尔德(O. Reingold)、K. 塔尔瓦尔(K. Talwar)和 S. P. 瓦德汉(S. P. Vadhan)。双方差分隐私的局限性。见《计算机科学基础》,第 81 - 90 页。IEEE 计算机协会,2010 年。

[59] F. McSherry. Privacy integrated queries (codebase). Available on Microsoft Research downloads website. See also the Proceedings of SIG-MOD 2009.

[59] F. 麦克谢里(F. McSherry)。隐私集成查询(代码库)。可在微软研究院下载网站获取。另见 2009 年 SIG - MOD 会议论文集。

[60] F. McSherry and K. Talwar. Mechanism design via differential privacy. In Foundations of Computer Science, pages 94-103. 2007.

[60] F. 麦克谢里(F. McSherry)和 K. 塔尔瓦尔(K. Talwar)。通过差分隐私进行机制设计。见《计算机科学基础》,第 94 - 103 页。2007 年。

[61] F. McSherry and K. Talwar. Mechanism design via differential privacy. In Foundations of Computer Science, pages 94-103. 2007.

[61] F. 麦克谢里(F. McSherry)和 K. 塔尔瓦尔(K. Talwar)。通过差分隐私进行机制设计。见《计算机科学基础》,第 94 - 103 页。2007 年。

[62] D. Mir, S. Muthukrishnan, A. Nikolov, and R. N. Wright. Pan-private algorithms via statistics on sketches. In Proceedings of the Association for Computing Machinery SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 37-48. Association for Computing Machinery, 2011.

[62] D. 米尔(D. Mir)、S. 穆图克里什南(S. Muthukrishnan)、A. 尼科洛夫(A. Nikolov)和 R. N. 赖特(R. N. Wright)。通过草图统计实现泛隐私算法。见美国计算机协会 SIGMOD - SIGACT - SIGART 数据库系统原理研讨会论文集,第 37 - 48 页。美国计算机协会,2011 年。

[63] I. Mironov. On significance of the least significant bits for differential privacy. In T. Yu, G. Danezis, and V. D. Gligor, editors, Association for Computing Machinery Conference on Computer and Communications Security, pages 650-661. Association for Computing Machinery, 2012.

[63] I. 米罗诺夫(I. Mironov)。最低有效位对差分隐私的重要性。见 T. 于(T. Yu)、G. 达内齐斯(G. Danezis)和 V. D. 格里戈尔(V. D. Gligor)编,美国计算机协会计算机与通信安全会议论文集,第 650 - 661 页。美国计算机协会,2012 年。

[64] I. Mironov, O. Pandey, O. Reingold, and S. P. Vadhan. Computational differential privacy. In Proceedings of CRYPTOLOGY, pages 126-142. 2009.

[64] I. 米罗诺夫(I. Mironov)、O. 潘迪(O. Pandey)、O. 赖因戈尔德(O. Reingold)和 S. P. 瓦德汉(S. P. Vadhan)。计算差分隐私。见《密码学会议论文集》,第 126 - 142 页。2009 年。

[65] A. Narayanan and V. Shmatikov. Robust de-anonymization of large sparse datasets (how to break anonymity of the netflix prize dataset). In Proceedings of IEEE Symposium on Security and Privacy. 2008.

[65] A. 纳拉亚南(A. Narayanan)和 V. 什马蒂科夫(V. Shmatikov)。大型稀疏数据集的鲁棒去匿名化(如何破解网飞奖数据集的匿名性)。见 IEEE 安全与隐私研讨会论文集。2008 年。

[66] A. Nikolov, K. Talwar, and L. Zhang. The geometry of differential privacy: the sparse and approximate cases. Symposium on Theory of Computing, 2013.

[66] A. 尼科洛夫(A. Nikolov)、K. 塔尔瓦尔(K. Talwar)和 L. 张(L. Zhang)。差分隐私的几何:稀疏和近似情况。计算理论研讨会,2013 年。

[67] K. Nissim, C. Orlandi, and R. Smorodinsky. Privacy-aware mechanism design. In Association for Computing Machinery Conference on Electronic Commerce, pages 774-789. 2012.

[67] K. 尼斯姆(K. Nissim)、C. 奥兰迪(C. Orlandi)和 R. 斯莫罗金斯基(R. Smorodinsky)。隐私感知机制设计。见美国计算机协会电子商务会议论文集,第 774 - 789 页。2012 年。

[68] K. Nissim, S. Raskhodnikova, and A. Smith. Smooth sensitivity and sampling in private data analysis. In Proceedings of the Association for Computing Machinery Symposium on Theory of Computing, pages 75-84. 2007.

[68] K. 尼斯姆(K. Nissim)、S. 拉斯霍德尼科娃(S. Raskhodnikova)和 A. 史密斯(A. Smith)。私有数据分析中的平滑敏感度和采样。见美国计算机协会计算理论研讨会论文集,第 75 - 84 页。2007 年。

[69] K. Nissim, R. Smorodinsky, and M. Tennenholtz. Approximately optimal mechanism design via differential privacy. In Innovations in Theoretical Computer Science, pages 203-213. 2012.

[69] K. 尼斯姆(K. Nissim)、R. 斯莫罗金斯基(R. Smorodinsky)和 M. 滕内霍尔茨(M. Tennenholtz)。通过差分隐私实现近似最优机制设计。见《理论计算机科学创新》,第 203 - 213 页。2012 年。

[70] M. Pai and A. Roth. Privacy and mechanism design. SIGecom Exchanges, 2013.

[70] M. 派(M. Pai)和 A. 罗斯(A. Roth)。隐私与机制设计。SIGecom 交流,2013 年。

[71] R. Rogers and A. Roth. Asymptotically truthful equilibrium selection in large congestion games. arXiv preprint arXiv:1311.2625, 2013.

[71] R. 罗杰斯(R. Rogers)和 A. 罗斯(A. Roth)。大型拥塞博弈中的渐近真实均衡选择。预印本 arXiv:1311.2625,2013 年。

[72] A. Roth. Differential privacy and the fat-shattering dimension of linear queries. In Approximation, Randomization, and Combinatorial Optimization, Algorithms and Techniques, pages 683-695. Springer, 2010.

[72] A. 罗斯(A. Roth)。差分隐私与线性查询的胖粉碎维度。见《近似、随机化与组合优化:算法与技术》,第 683 - 695 页。施普林格出版社,2010 年。

[73] A. Roth. Buying private data at auction: the sensitive surveyor’s problem. Association for Computing Machinery SIGecom Exchanges, 11(1):1- 8, 2012.

[73] A. 罗斯(A. Roth)。通过拍卖购买私有数据:敏感调查者问题。美国计算机协会 SIGecom 交流,11(1):1 - 8,2012 年。

[74] A. Roth and T. Roughgarden. Interactive privacy via the median mechanism. In Symposium on Theory of Computing '10, pages 765-774. 2010.

[74] A. 罗斯(Roth)和 T. 拉夫加登(Roughgarden)。通过中位数机制实现交互式隐私保护。收录于《2010 年计算理论研讨会论文集》,第 765 - 774 页。2010 年。

[75] A. Roth and G. Schoenebeck. Conducting truthful surveys, cheaply. In Proceedings of the ACM Conference on Electronic Commerce, pages 826- 843. 2012.

[75] A. 罗斯(Roth)和 G. 舍内贝克(Schoenebeck)。低成本开展真实调查。收录于《ACM 电子商务会议论文集》,第 826 - 843 页。2012 年。

[76] B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. Learning in a large function space: Privacy-preserving mechanisms for svm learning. arXiv preprint arXiv:0911.5708, 2009.

[76] B. I. P. 鲁宾斯坦(Rubinstein)、P. L. 巴特利特(Bartlett)、L. 黄(Huang)和 N. 塔夫特(Taft)。在大型函数空间中学习:支持向量机学习的隐私保护机制。预印本 arXiv:0911.5708,2009 年。

[77] R. Schapire. The boosting approach to machine learning: An overview. In D. D. Denison, M. H. Hansen, C. Holmes, B. Mallick, and B. Yu, editors, Nonlinear Estimation and Classification. Springer, 2003.

[77] R. 沙皮尔(Schapire)。机器学习的提升方法概述。收录于 D. D. 丹尼森(Denison)、M. H. 汉森(Hansen)、C. 霍姆斯(Holmes)、B. 马利克(Mallick)和 B. 于(Yu)主编的《非线性估计与分类》。施普林格出版社,2003 年。

[78] R. Schapire and Y. Singer. Improved boosting algorithms using confidence-rated predictions. Machine Learning, 39:297-336, 1999.

[78] R. 沙皮尔(Schapire)和 Y. 辛格(Singer)。使用置信度评级预测改进提升算法。《机器学习》,39 卷:297 - 336 页,1999 年。

[79] R. E. Schapire and Y. Freund. Boosting: Foundations and Algorithms. MIT Press, 2012.

[79] R. E. 沙皮尔(Schapire)和 Y. 弗罗因德(Freund)。《提升方法:基础与算法》。麻省理工学院出版社,2012 年。

[80] A. Smith and A. G. Thakurta. Differentially private feature selection via stability arguments, and the robustness of the lasso. In Proceedings of Conference on Learning Theory. 2013.

[80] A. 史密斯(Smith)和 A. G. 塔库尔塔(Thakurta)。通过稳定性论证实现差分隐私特征选择以及套索回归的鲁棒性。收录于《学习理论会议论文集》。2013 年。

[81] L. Sweeney. Weaving technology and policy together to maintain confidentiality. Journal of Law, Medicines Ethics, 25:98-110, 1997.

[81] L. 斯威尼(Sweeney)。将技术与政策相结合以维护保密性。《法律、医学与伦理学杂志》,25 卷:98 - 110 页,1997 年。

[82] J. Ullman. Answering n { 2 + o ( 1 ) } {\mathrm{n}}^{\{ 2 + o\left( 1\right) \} } n{2+o(1)} counting queries with differential privacy is hard. In D. Boneh, T. Roughgarden, and J. Feigenbaum, editors, Symposium on Theory of Computing, pages 361-370. Association for Computing Machinery, 2013.

[82] J. 厄尔曼(Ullman)。用差分隐私回答 n { 2 + o ( 1 ) } {\mathrm{n}}^{\{ 2 + o\left( 1\right) \} } n{2+o(1)} 计数查询是困难的。收录于 D. 博内(Boneh)、T. 拉夫加登(Roughgarden)和 J. 费根鲍姆(Feigenbaum)主编的《计算理论研讨会论文集》,第 361 - 370 页。美国计算机协会,2013 年。

[83] L. G. Valiant. A theory of the learnable. Communications of the Association for Computing Machinery, 27(11):1134-1142, 1984.

[83] L. G. 瓦利安特(Valiant)。可学习性理论。《美国计算机协会通讯》,27(11) 卷:1134 - 1142 页,1984 年。

[84] S. L. Warner. Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 60(309):63-69, 1965.

[84] S. L. 华纳(Warner)。随机化回答:一种消除回避性回答偏差的调查技术。《美国统计协会杂志》,60(309) 卷:63 - 69 页,1965 年。

[85] D. Xiao. Is privacy compatible with truthfulness? In Proceedings of the Conference on Innovations in Theoretical Computer Science, pages 67-86. 2013.

[85] D. 肖(Xiao)。隐私与真实性是否兼容?收录于《理论计算机科学创新会议论文集》,第 67 - 86 页。2013 年。


目录导航

第1章:https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附录):https://blog.csdn.net/AdamCY888/article/details/146457601

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高山莫衣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值