【中文翻译】第3章(3/3)-The Algorithmic Foundations of Differential Privacy-CSDN博客

为方便阅读，故将《The Algorithmic Foundations of Differential Privacy》翻译项目内容搬运至此；

教材原文地址：https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

中文翻译版 Github 项目地址1：https://github.com/guoJohnny/algorithmic-foundation-of-dp-zh-cn

中文翻译版 Github 项目地址2：https://github.com/doubleheiker/algorithmic-foundation-of-dp-zh-cn

感谢前辈的翻译工作！

在这里插入图片描述

3.6 稀疏向量技术

拉普拉斯机制可用于回答自适应选择的低敏感度查询，并且从我们的合成定理中我们知道，隐私参数与所回答的查询数量（或其平方根）成比例地降低。不幸的是，经常会发生我们有大量问题要回答的问题，即使使用 3.5节 中的高级合成定理，也有太多问题无法使用独立的扰动技术来提供合理的隐私保证。但是，在某些情况下，我们只会关心知道高于某个阈值的查询的标识。在这种情况下，我们希望通过放弃对明显低于阈值的查询的数字答案，而仅报告这些查询确实低于阈值，从而获得本质的分析。（如果我们这样选择的话，我们也将能够获得阈值以上查询的数字值，而只需花费额外的费用）。这类似于我们在3.3节中的“Report Noisy Max”机制中所做的事情，实际上，对于非交互式或脱机情况，可以选择迭代该算法或指数机制。

在本节中，我们显示如何在在线设置中分析此方法。该技术很简单：添加噪音并仅报告噪声值是否超过阈值。本节中，我们的重点是分析隐私只会随着实际高于阈值的查询数量而降低，而不会随着查询总数的增加而降低。如果我们知道位于阈值以上的查询集比查询总数小得多（也就是说，如果答案向量稀疏的话），那么将可以大量节省（隐私参数）。

更详细地讲，我们将考虑一系列事件（每个查询一个），如果在数据库上评估的查询超过给定（已知的、公共的）阈值，则会发生这些事件。我们的目标是释放一个位向量，以指示每个事件是否已发生。在提出每个查询时，该机制将计算一个噪声响应，并将其与（众所周知的）阈值进行比较，如果超过了该阈值，则将揭示此事实。由于隐私证明（定理3.24）中的技术原因，该算法适用于阈值 $T$ 的噪声版本 $\hat{T}$ 。虽然 $T$ 是公开的，但噪声版本 $\hat{T}$ 不是。

并非对每个可能的查询都造成隐私损失，后文的分析将仅针对接近或高于阈值的查询值导致隐私损失。

设置设 $m$ 表示灵敏度为 1 的查询总数，可以自适应地选择。在不丧失通用性的情况下，有一个预先固定的阈值 $T$ （或者每个查询可以有自己的阈值，但结果不变）。我们将在查询值中添加噪声，并将结果与 $T$ 进行比较。正向的结果意味着噪声查询值超过了阈值。我们期望 $c$ （少量）个噪声值超过阈值，并且我们只释放高于阈值的噪声值。算法将 $c$ 用作其停止条件。

我们将首先分析在超过阈值查询的 $c = 1$ 之后算法停止的情况，并表明无论查询的总序列有多长，该算法都是 $\varepsilon$ -差分隐私的。然后利用我们的合成定理分析 $c > 1$ 的情形，并推导出 $(\varepsilon,0)$ 和 $(\varepsilon,\delta)$ -差分隐私的界。

3.6 稀疏向量算法：高于阈值算法

我们首先论证了 AboveThreshold 算法是私有的，并且是准确的，该算法专门针对一个高于阈值的查询。

请添加图片描述

（注：上面算法中 $\bot$ 为永假含义; $\top$ 为永真含义。根据上章节描述，个人理解其含义应为： $\top$ 释放回答， $\bot$ 拒绝回答）

定理 3.23 AboveThreshold 算法是 $(\varepsilon,0)$ - 差分隐私的。

【证明】 固定任意两个相邻数据库 $D$ 和 $D^{'}$ 。设 $A$ 为表示 AboveThreshold算法 $(D,{f_i},T,\varepsilon)$ 输出的随机变量，设 $A^{'}$ 为表示 AboveThreshold算法 $(D',{f_i},T,\varepsilon)$ 输出的随机变量。算法的输出是这些随机变量的一些实现，即： $\in \{\bot,\top\}^k$ ，其形式是对于所有的 $i<k,a_i=\bot,a_k=\top$ 。算法内部有两种类型的随机变量：噪声阈值 $\hat{T}$ 和对 $k$ 个查询的扰动 $\{\nu_i\}_{i=1}^k$ 。在下面的分析中，我们将固定（任意的） $\nu_1,...,\nu_{k-1}$ 的值。并且 $\nu_k$ 和 $\hat{T}$ 具有随机性。定义以下量，该量代表在 $D$ 上估计任何查询 $f_1,...,f_{k-1}$ 的最大噪声值：

$\max_{i<k}(f_i(D) + \nu_i)$

在下文中，我们将滥用表示法，将 $\text{Pr}[\hat{T}=t]$ 写为 $\hat{T}$ 在 $t$ 处的概率密度函数的简写（ $\nu_k$ 也类似这样的表示），并写 $\mathbf{1}[x]$ 表示事件 $x$ 的指示函数 $^{<1>}$ 。注意固定 $\nu_i,...,\nu_{k-1}$ 的值（这使 $g (D)$ 为确定量），我们有：

$\begin{aligned} \underset{\hat{T},\nu_k}{\text{Pr}}[A=a] &= \underset{\hat{T}, \nu_k}{\text{Pr}}[\hat{T} > g(D) \ \text{and} \ f_k(D)+ \nu_k > \hat{T}]\\ &= \underset{\hat{T}, \nu_k}{\text{Pr}}[\hat{T} \in (g(D),f_k(D)+ \nu_k]]\\ &= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\text{Pr}[ \nu_k=v]\\ &\ \enspace \ \cdot \text{Pr}[\hat{T}=t]\mathbf{1}[t\in (g(D),f_k(D)+v]]dvdt\\ &= * \end{aligned}$

我们现在对变量做一些变换，定义：

$\begin{aligned} \hat{v} &= v+g(D)-g(D')+f_k(D')-f_k(D)\\ \hat{t} &= t + g(D) - g(D') \end{aligned}$

注意，对于任何 $D, D^{'}$ ，有 $|\hat{v}-v|\leq 2,|\hat{t}-t|\leq 1$ 。这是因为每个查询 $f_i(D)$ 的敏感度都是 $1$ 的，因此量 $g (D)$ 的敏感度也是 $1$ 。应用变量的这种变化，我们有：

$\begin{aligned} * &= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\text{Pr}[\nu_k=\hat{v}]\cdot\text{Pr}[\hat{T}=\hat{t}]\mathbf{1}[(t+g(D)-g(D'))\\ &\ \qquad \qquad \enspace \in(g(D),f_k(D')+v+g(D)-g(D']]dvdt\\ &= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\text{Pr}[\nu_k=\hat{v}]\cdot\text{Pr}[\hat{T}=\hat{t}]\mathbf{1}[t\in(g(D'),f_k(D')+v]]dvdt\\ & \leq \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp(\varepsilon/2)\text{Pr}[\nu_k=v]\\ &\enspace \enspace \cdot \exp(\varepsilon/2)\text{Pr}[\hat{T}=t]\mathbf{1}[t\in(g(D'),f_k(D')+v]]dvdt\\ &= \exp(\varepsilon)\underset{\hat{T},\nu_k}{\text{Pr}}[\hat{T} > g(D') \ \text{and} \ f_k(D')+ \nu_k > \hat{T}]\\ &= \exp(\varepsilon)\underset{\hat{T},\nu_k}{\text{Pr}}[A'=a] \end{aligned}$

不等式来自 $|\hat{v}-v|$ 和 $|\hat{t}-t|$ 的界，以及 Laplace 分布的概率密度函数。

【定理 3.23 证毕】

【补充：对上述证明过程中的不等式步骤拓展解释。由 Laplace 分布概率密度函数（ $v$ 的尺度参数为 $4/\varepsilon$ ）可知：

$\begin{aligned} \text{Pr}[\nu_k = \hat{v}] &= \frac{1}{2\cdot\frac{4}{\varepsilon}}\exp\big(-\frac{|\hat{v}|}{4/\varepsilon}\big)\\ \text{Pr}[\nu_k = v] &= \frac{1}{2\cdot\frac{4}{\varepsilon}}\exp\big(-\frac{|v|}{4/\varepsilon}\big)\\ \end{aligned}$

由于 $|\hat{v}-v|\leq 2$ ，并且由绝对值不等式，可以作出如下推导：

$\begin{aligned} \frac{\text{Pr}[\nu_k = \hat{v}]}{\text{Pr}[\nu_k = v]} &= \exp\bigg(\frac{|v|-|\hat{v}|}{\frac{4}{\varepsilon}}\bigg)\\ &\leq \exp\bigg(\frac{|v-\hat{v}|}{\frac{4}{\varepsilon}}\bigg)\\ &\leq \exp\bigg(\frac{2}{\frac{4}{\varepsilon}}\bigg)\\ &= \exp\big(\frac{\varepsilon}{2}\big)\\ \implies \text{Pr}[\nu_k = \hat{v}] &\leq \exp\big(\frac{\varepsilon}{2}\big)\cdot \text{Pr}[\nu_k = v] \end{aligned}$

同样的方法应用于 $\hat{T}$ 上，其 Laplace 分布的尺度参数为 $2/\varepsilon$ ，且 $|\hat{t}-t|\leq 1$

】

（译者注<1> 指示函数：是定义在某集合 $X$ 上的函数，表示其中有哪些元素属于某一子集 $A$ 。集合 $X$ 的子集 $A$ 的指示函数是函数 $\mathbf{1}_{A}:X\to \lbrace 0,1\rbrace$ ，定义为：

$\mathbf{1} _{A}(x)= \begin{cases} 1 &\text{if}\enspace x \in A,\\ 0 &\text{if}\enspace x \notin A. \end{cases}$

详见：指示函数定义
）

定义3.9（准确度） 一个算法它的应答流 $a_1,...,\in \{\top,\bot\}^{*}$ 作为对 $k$ 个查询流 $f_1,...,f_k$ 的响应。如果除了概率最大为 $\beta$ 之外，这个算法在 $f_k$ 之前不停止，并且对于所有 $a_i = \top$ 有：
$f_i(D) \geq T - \alpha$
对于所有 $a_i = \bot$ 有：
$f_i(D) \leq T + \alpha$
那么，我们称这个算法对于阈值 $T$ 是 $(\alpha,\beta)$ -准确的。

算法1 可能出什么问题？噪声阈值 $\hat{T}$ 可能离 $T$ 很远，例如 $|\hat{T}-T|\geq \alpha$ 。另外，小的 $f_i(D)<T-\alpha$ 可能会添加大量噪声，以至于报告为高于阈值（即使阈值接近正确），而大 $f_i(D)>T+\alpha$ 可能报告为低于阈值。所有这些都以 $\alpha$ 的指数形式发生，概率很小。总而言之，我们在选择噪声阈值时可能会遇到问题，或者在一个或多个单独的噪声值 $ν_i$ 中可能会遇到这种问题。当然，我们可能同时存在两种错误。因此在下面的分析中，我们为每种类型分配 $\alpha/2$ 。

（个人理解：AboveThreshold 中需要向阈值 $T$ 和扰动 $\nu_k$ 添加 Laplace 噪声。根据 Laplace 分布的特点（下图）：

请添加图片描述

可以看出，算法会以小概率对阈值和扰动添加过大的噪声。如图的左右两侧。这就会造成上文提到的 “噪声阈值 $\hat{T}$ 可能离 $T$ 很远，例如 $|\hat{T}-T|\geq \alpha$ ”。同样，对扰动的噪声也可能过大。这样就导致，即使 $\hat{T}$ 与 $T$ 接近的情况下，造成小值回答（不允许释放）超过阈值被释放；大值回答（允许释放）小于阈值被拒绝。由于 AboveThreshold 会出现这两种错误，进而不满足 定义3.9 的规定。所以对于这两种错误情况，下面定理为噪声阈值 $\hat{T}$ 和扰动 $\nu_k$ 各分配 $\alpha/2$ 的界。并将概率上界 $\beta$ 和噪声取之范围 $\alpha$ 关联起来，使得 AboveThreshold 算法不会出现两种错误情况，进而满足 定义3.9 的规定。
）

定理 3.24 对于 $k$ 个查询的任何序列， $f_1,...,f_k$ 使得 $|\{i<k:f_i(D)\geq T - \alpha\}|=0$ （即，唯一接近阈值以上的查询是最后一个），当：

$\alpha = \frac{8(\log k+\log(2/\beta))}{\varepsilon}$

AboveThreshold 算法 $(D,{f_i},T,\varepsilon)$ 是 $(\alpha,\beta)$ -准确的：

【证明】 如果我们能够证明除概率最大为 $\beta$ 以外，当:

$\max_{i \in [k]}|\nu_i|+|T-\hat{T}|\leq\alpha \qquad (*)$

时，由观察易得该定理。

如果是这样的情况，那么对于任意 $a_i=\top$ ，有：

$f_i(D) + \nu_i \geq \hat{T} \geq T-|T-\hat{T}| \qquad (1)$

进一步推导：

$f_i(D) \geq T-|T-\hat{T}|-|\nu_i|\geq T-\alpha \qquad (2)$

同样的，对于任意 $a_i = \bot$ ，有：

$f_i(D) \leq \hat{T} \leq T+|T-\hat{T}|+|\nu_i|\leq T+\alpha$

我们将会有对于任意 $i<k:f_i(D)<T-\alpha<T-|\nu_i|-|T-\hat{T}|$ 。所以： $f_i(D)+\nu_i\leq \hat{T}$ ，即： $a_i=\bot$ 。因此，算法在第 k 个查询被回答前不会停止。

我们现在完成证明。回忆一下 事实3.7，当 $Y\backsim Lap(b)$ 时， $\text{Pr}[|Y|\geq t\cdot b]=\exp(-t)$ ，算法中 $\hat{T}$ 的尺度参数 $b=2/\varepsilon$ 因此我们有：

$\text{Pr}[|T-\hat{T}|\geq \frac{\alpha}{2}]=\exp\Big(-\frac{\varepsilon \alpha}{4}\Big)$

由定理设定最大概率为 $\beta/2$ ，我们可以得知： $\alpha\geq \frac{4\log(2/\beta)}{\varepsilon}$
。

同样，由 布尔不等式，且算法中 $\nu_k$ 的尺度参数 $b=4/\varepsilon$ 可知：

$\text{Pr}[\max_{i\in [k]}|\nu_i|\geq \alpha/2]\leq k\cdot\exp\Big(-\frac{\varepsilon \alpha}{8}\Big)$

由定理设定最大概率为 $\beta/2$ ，我们可以得知： $\alpha\geq \frac{8\log(2/\beta)+\log k}{\varepsilon}$
。

这两个推导共同证明了该定理。

【定理 3.24 证毕】

【补充(1)式：在 AboveThreshold 算法中，当 $a_i=\top,f_i(D)+\nu_i\geq \hat{T}$ ， $|T-\hat{T}|$ 为 Laplace 噪声，故阈值必然大于等于其下界 $T-|T-\hat{T}|$ 】

【补充(2)式：由 $(*)$ 可以推得：

$\begin{aligned} \max_{i \in [k]}|\nu_i|+|T-\hat{T}|&\leq\alpha\\ \implies |\nu_i|+|T-\hat{T}| &\leq \max_{i \in [k]}|\nu_i|+|T-\hat{T}| \leq \alpha\\ \implies -|\nu_i|-|T-\hat{T}| &\geq -\alpha\\ \implies T-|\nu_i|-|T-\hat{T}| &\geq T-\alpha \end{aligned}$

】

3.6.1 稀疏算法

现在，我们展示如何使用合成技术处理多个“高于阈值”的查询。

稀疏算法可以认为是：当查询进入时，它会反复调用 AboveThreshold。每次报告高于阈值的查询后，该算法仅在 AboveThreshold 的新实例上重新启动剩余的查询流。在重新启动AboveThreshold $c$ 次之后停止（即在出现 $c$ 个高于阈值的查询之后）。由于 AboveThreshold 的每个实例都是 $(\varepsilon,0)$ - 差分隐私的，因此适用合成定理。

请添加图片描述

定理 3.25 稀疏算法是 $(\varepsilon,\delta)$ -差分隐私的。

【证明】 我们发现到 Sparse 算法完全等同于以下过程：我们对查询流 ${f_i\}$ 运行 AboveThreshold 算法 $(D,\{f_i\},T,\varepsilon')$ ，并设置：

$\varepsilon' = \begin{cases} \frac{\varepsilon}{c} &\text{if } \delta = 0 ;\\ \frac{\varepsilon}{\sqrt{8c\ln \frac{1}{\delta}}} &\text{Otherwise.} \end{cases}$

使用 AboveThreshold 算法提供答案。当 AboveThreshold 算法停止时（在回答了1个超过阈值的查询之后），我们只需在剩余的查询流上重新启动 Sparse算法 $(D,\{f_i\},T,\varepsilon')$ ，并继续这个过程直到我们重新启动 AboveThreshold 算法 $c$ 次。第 $c$ 次 AboveThreshold 算法停止后，Sparse算法也停止。我们已经证明了AboveThreshold 算法 $(D,\{f_i\},T,\varepsilon')$ 是 $(\varepsilon',0)$ -差分隐私的。最后，根据高级合成定理（定理 3.20 和推论 3.21）， $c$ 个
$\varepsilon' = \frac{\varepsilon}{\sqrt{8c\ln \frac{1}{\delta}}}$ -差分隐私算法的合成是 $(\varepsilon,\delta)$ -差分隐私，并且 $c$ 个 $\varepsilon' = \varepsilon/c$ - 差分隐私算法的合成是 $(\varepsilon,0)$ -差分隐私。

需要证明包含 $c$ 个 AboveThreshold 算法的 Sparse 算法的准确性。我们注意到，如果对于每个 AboveThreshold 算法 $(\alpha,\beta/c)$ 精确的，那么 Sparse 算法将是 $(\alpha,\beta)$ 精确的。

【定理 3.25 证毕】

定理 3.26 对于 k 个查询的任何序列， $f_1,...,f_k$ 使得 $L(T)\equiv|\{i:f_i(D)\geq T - \alpha\}|\leq c$ 。如果 $\delta >0$ ，当：

$\alpha = \frac{(\ln k+\ln\frac{2c}{\beta})\sqrt{512c\ln\frac{1}{\delta}}}{\varepsilon}$

Sparse 算法是 $(\alpha,\beta)$ 精确的。

如果 $\delta =0$ ，当：

$\alpha = \frac{8x(\ln k + \ln(2c/\beta))}{\varepsilon}$

Sparse 算法是 $(\alpha,\beta)$ 精确的。

【证明】 运用 定理3.24 的证明方法，将 $\beta$ 设为 $\beta/c$ ，并分别根据 $\delta > 0$ 或 $\delta=0$ 将 $\varepsilon$ 设为 $\frac{\varepsilon}{\sqrt{8c\ln \frac{1}{\delta}}}$ 和 $\varepsilon/c$ 即可。

3.6.3 数值稀疏算法

最后，我们给出了 Sparse 算法的一个版本，它实际上输出了高于阈值查询的数值，我们只需要在精度上损失一个常数因子就可以做到这一点。我们称这种算法为 NumericSparse，它是一种简单的使用 Laplace 机制组成的 Sparse 算法。它不是输出向量 $\in \{\top,\bot\}^*$ ，而是输出向量 $\in (\mathbb{R} \cup \{\bot\})^*$ 。

我们发现 NumericSparse 算法是具有隐私性的：

定理 3.27 NumericSparse 算法是 $(\varepsilon,\delta)$ - 差分隐私的。

【证明】 我们发现，如果 $\delta=0$ ，则NumericSparse算法 $(D,\{f_i\},T,c,\varepsilon,0)$ 就是 Sparse 算法 $(D,\{f_i\},T,c,\frac{8}{9}\varepsilon,0)$ 的自适应组合，其中输出具体数值使用了具有隐私参数 $(\varepsilon',\delta)=(\frac{1}{9}\varepsilon,0)$ 的 Lapalace 机制。如果 $\delta>0$ ，则 NumericSparse 算法 $(D,\{f_i\},T,c,\varepsilon,\delta)$ 是 Sparse 算法 $(D,\{f_i\},T,c,\frac{\sqrt{512}}{\sqrt{512}+1}\varepsilon,\delta/2)$ 的自适应组合，其中输出具体数值使用了具有隐私参数 $(\varepsilon',\delta)=(\frac{1}{\sqrt{512}}\varepsilon,\delta/2)$ 的 Lapalace 机制。
因此，NumericSparse 算法的隐私来自简单的组合。

【定理 3.27 证毕】

要讨论准确性，我们必须定义一种机制的准确性，这是指响应一系列数值查询而输出流 $\in (\mathbb{R} \cup \{\bot\})^*$ 的含义：

请添加图片描述

定义3.10（数值精度） 一个响应 $k$ 个查询流 $f_1,...,f_k$ 并输出应答流 $a_1,...,\in(\mathbb{R} \cup \{\bot\})^*$ 的算法，如果除概率最大为 $\beta$ 之外，算法不会在 $f_k$ 之前停止，并且对于所有 $a_i \in \mathbb{R}$ 有：

$|f_i(D)-a_i|\leq \alpha$

对于所有 $a_i =\bot$ ，有：

$f_i(D) \leq T + \alpha$

则这个算法是相对于阈值 $T$ 的 $(\alpha,\beta)$ 准确。

定理 3.28。对于 $k$ 个查询的任何序列 $f_1,...f_k$ 使得 $L(T)\equiv|\{i:f_i(D)\geq T-\alpha\}|\leq c$ ，如果 $\delta>0$ ，当：

$\alpha = \frac{(\ln k+\ln \frac{4c}{\beta})\sqrt{c\ln \frac{2}{\delta}}(\sqrt{512}+1)}{\varepsilon}$

NumericSparse 算法是相对于阈值 $T$ 的 $(\alpha,\beta)$ 准确的。

如果 $\delta=0$ ，当：

$\alpha = \frac{9c(\ln k + \ln(4c/\beta))}{\varepsilon}$

NumericSparse 算法是相对于阈值 $T$ 的 $(\alpha,\beta)$ 准确的。

【证明】 精度需要两个条件：首先，对于所有 $a_i =\bot:f_i(D)\leq T$ ： Sparse 准确定理以 $1-\beta/2$ 概率成立。另外，对于所有 $a_i\in \mathbb{R}$ ，它要求 $|f_i(D)-a_i|\leq \alpha$ 。这通过 Laplace 机制的精度以 $1-\beta/2$ 概率成立。

【定理 3.28证毕】

我们到底显示了什么？如果给我们一系列查询，并保证只有最多 $c$ 个答案的答案高于 $T+\alpha$ ，我们就可以回答高于给定阈值 $T$ 的那些查询，直至误差 $\alpha$ 。如果我们事先知道进行这些高于阈值查询的身份，并使用拉普拉斯机制进行回答，那么在给定相同的隐私保证的情况下，此精度等于（等于常数和 $\log k$ ）。也就是说，稀疏向量技术允许我们几乎“免费”地辨别这些大型查询的身份，只为这些不相关的查询进行对数精度的响应。这种算法与另一种形式（通过指数机制找到造成隐私损失大的查询，然后通过拉普拉斯机制响应这些查询）提供相同的保证。然而，这个稀疏向量算法运行起来很简单，而且最关键的是，它允许我们自适应地选择查询。

参考文献

Randomized Response is due to Warner [84] (predating differential privacy by four decades!). The Laplace mechanism is due to Dwork et al. [23]. The exponential mechanism was invented by McSherry and Talwar [60]. Theorem 3.16 (simple composition) was claimed in [21]; the proof appearing in Appendix B is due to Dwork and Lei [22];
McSherry and Mironov obtained a similar proof. The material in Sec-tions 3.5.1 and 3.5.2 is taken almost verbatim from Dwork et al. [32].\text{Pr}ior to [32] composition was modeled informally, much as we did for the simple composition bounds. For specific mechanisms applied on a single database, there are “evolution of confidence” arguments due to
Dinur, Dwork, and Nissim [18, 31], (which pre-date the definition of differential privacy) showing that the privacy parameter in k-fold com- √k position need only deteriorate like k if we are willing to tolerate a (negligible) loss in δ (for k < 1/ε2). Theorem 3.20 generalizes those arguments to arbitrary differentially private mechanisms.The claim that without coordination in the noise the bounds in the composition theorems are almost tight is due to Dwork, Naor, and Vadhan [29]. The sparse vector technique is an abstraction of a tech- nique that was introduced, by Dwork, Naor, Reingold, Rothblum, and Vadhan [28] (indicator vectors in the proof of Lemma 4.4). It has subsequently found wide use (e.g. by Roth and Roughgarden [74], Dwork, Naor, Pitassi, and Rothblum [26], and Hardt and Rothblum [44]). In our presentation of the technique, the proof of Theorem 3.23 is due to Salil Vadhan.