The Algorithmic Foundations of Differential Privacy学习笔记

原创已于 2024-07-04 08:51:01 修改

· 1.2k 阅读

12 ·

版权

文章标签：

#学习 #笔记

于 2024-07-04 08:45:58 首次发布

在完成了《动手学差分隐私》后现在对差分隐私已经有了基础的认识，现在决定深入学习差分隐私算法，《The Algorithmic Foundations of Differential Privacy》对差分隐私中的实现机制进行了证明。

Basic Terms

这一章主要就是讲了差分隐私的基础定义，但是讲得感觉太复杂，不适合新手上手，我看这本书主要是想推算法证明，所以对定义快速过了一遍。新手入门建议看《动手学差分隐私》，附带链接：https://github.com/uvm-plaid/programming-dp

2.1和2.2讲了一些基础的差分隐私相关的定义，可进行了解。由于我已经学了《动手学差分隐私》，所以这部分粗略地看了一遍。

2.3 Formalizing differential privacy

此节在一开始讲述了差分隐私按进程提供隐私，在这个过程中引入了随机响应机制：

1. 抛一枚硬币。

2. 如果反面，则如实回答。

3. 如果正面，则抛第二枚硬币，如果正面则回答“是”，如果反面则回答“否”。

这是在结果中加入了合理的否认，即第三种情况。这种随机性对隐私保护是必要的，在隐私保护中需要讨论输入和输出的概率空间，本专著中使用离散概率空间。一般来说，具有域 A 和（离散）范围 B 的随机算法将与从 A 到 B 上的概率单纯形的映射相关联，表示为 Δ(B)：

定义 2.1（概率单纯形）。给定一个离散集 B，B 上的概率单纯形，表示为 Δ(B)，定义为：

定义 2.2（随机算法）。具有域 A 和离散范围 B 的随机算法 M 与映射 M : A → Δ(B) 相关联。对于输入 a ∈ A，算法 M 输出 M(a)=b，每个 b ∈ B 的概率为 (M (a))b。概率空间位于算法 M 的抛硬币上。

定义 2.3（数据库之间的距离）。数据库 x 的 L1 范数表示为(L1范数和L2范数指“曼哈顿距离”和“欧氏距离”）：

$\left | \left | X-Y \right | \right |_1$ 表示x与y之间有多少记录不同的度量

在使用多重表时常使用Hamming distance（汉明距离）进行数据库之间的距离，在实际使用中，多重集表示通常也会更加简洁。

定义 2.4（差分隐私）。具有域 $\mathbb{N}^{^{\left \| \left | \chi \right | \right \|}}$ 的随机算法 M是 (ε, δ)-差分隐私的，如果对于所有 S⊆Range(M) 并且对于所有 x, y ∈ $\mathbb{N}^{^{\left \| \left | \chi \right | \right \|}}$ 使得 $\left | \left | X-Y \right | \right |_1$ ≤ 1：（这是最基础的差分隐私的定义）

如果 δ =0，我们说 M 是 ε-差分隐私的。然而，即使 δ 可以忽略不计，(ε, 0)- 和 (ε, δ)- 差分隐私之间也存在理论上的区别。其中最主要的是量化顺序的转换。 (ε, 0)-差分隐私确保，对于机制 M(x) 的每次运行，观察到的输出（几乎）同样有可能在每个相邻数据库上同时观察到。相反，（ε，δ）差分隐私表示，对于每对相邻数据库 x， y，事后观察到的值 M（x）在数据库为 x 时比数据库为 y 时生成的可能性要大得多或小得多。然而，给定输出 xi ∼M(x)，可能会找到一个数据库 y，使得 xi 比数据库为 x 时更有可能在 y 上产生。也就是说，分布 M(y) 中的 xi 质量可能是远大于其在分布 M(x) 中的质量。