差分隐私下采样导致的输出分布为混合分布

高山莫衣

于 2025-04-22 14:42:27 发布

阅读量1k

点赞数 33

分类专栏：差分隐私小九九文章标签：机器学习算法人工智能差分隐私概率论

原创作品，共同进步！

本文链接：https://blog.csdn.net/AdamCY888/article/details/147421185

版权

差分隐私小九九专栏收录该内容

39 篇文章

订阅专栏

在差分隐私和子采样机制中，相邻数据集 $D$ 和 $D^{'}$ 的设置、子采样的作用及其对分布的影响是理解隐私保护的关键。以下分点详细解释：

1. 相邻数据集 $D$ 和 $D^{'}$ 的定义

相邻数据集（Adjacent Datasets）是差分隐私的核心概念，指两个数据集 仅相差一条记录。例如：
- $D$ 包含用户A的数据， $D^{'}$ 不包含用户A的数据（或反之）；
- $D$ 和 $D^{'}$ 在某一特定记录的值上不同（如医疗诊断结果）。
关键性质：算法对相邻数据集的处理需保证输出分布的不可区分性（即隐私保护）。

注意：

$D$ 和 $D^{'}$ 的差异不一定是“多一条数据”，也可能是 修改或删除一条数据。例如：
- 若 $D$ 有 $n$ 条数据， $D^{'}$ 可能有 $n - 1$ 条数据（删除一条），或 $n$ 条数据但某一条被修改。

2. 为什么需要子采样（Subsampling）？

子采样是一种常见的隐私增强技术，作用包括：

降低敏感样本的暴露概率：仅以概率 $q$ 选中包含差异记录的子集，减少隐私泄露风险。
减少计算开销：在大数据场景下，每次迭代仅处理部分数据。
放大隐私保护：结合噪声机制（如高斯噪声），子采样可进一步降低隐私损失。

3. 子采样对 $D$ 和 $D^{'}$ 的影响

(1) 未选中差异记录时

无论处理 $D$ 还是 $D^{'}$ ：由于未选中差异记录，算法使用的数据子集在 $D$ 和 $D^{'}$ 上完全相同。
输出分布一致：此时算法的输出分布仅依赖于公共数据（即非差异部分），因此：
$\Pr_{\mathcal{M}_t}(D) = \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2).$

(2) 选中差异记录时

仅在 $D$ 上产生差异：选中子集包含差异记录时， $D$ 和 $D^{'}$ 的输入不同，导致输出分布偏移。
- 在 $D^{'}$ 上，差异记录不存在（或未被修改），输出分布仍为 $\mathcal{N}(0, \sigma^2)$ 。
- 在 $D$ 上，差异记录参与计算，导致输出分布均值为敏感度 $d_t$ ，即：
  $\Pr_{\mathcal{M}_t}(D) = \mathcal{N}(d_t, \sigma^2).$

(3) 混合分布的构建

由于子采样以概率 $q$ 选中差异记录，以概率 $1 - q$ 未选中， $D$ 的输出分布为两者的加权混合：
$\Pr_{\mathcal{M}_t}(D) = \underbrace{(1 - q) \mathcal{N}(0, \sigma^2)}_{\text{未选中差异记录}} + \underbrace{q \mathcal{N}(d_t, \sigma^2)}_{\text{选中差异记录}}.$
而 $D^{'}$ 无论是否选中子集，输出分布均为：
$\Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2).$

4. 分布差异的直观示例

假设 $d_t = 1$ , $\sigma^2 = 1$ , $q = 0.2$ ：

在 $D^{'}$ 上：输出始终服从 $\mathcal{N}(0, 1)$ 。
在 $D$ 上：
- 80%的概率输出 $\mathcal{N}(0, 1)$ ；
- 20%的概率输出 $\mathcal{N}(1, 1)$ 。
效果： $D$ 的分布会略微右移（均值偏向1），但大部分概率质量仍集中在0附近。

5. 隐私损失与Wasserstein距离

子采样和高斯机制的联合作用通过 限制分布差异 来控制隐私损失：

Wasserstein距离 $W_\mu$ ：衡量将 $\Pr(D)$ 的分布“搬运”到 $\Pr(D')$ 的最小成本。
敏感度 $d_t$ ：通过约束 $d_t = \|g_t - g_t'\|_2$ （梯度差异的 $l_2$ 范数），确保噪声尺度 $\sigma$ 与隐私预算 $\epsilon$ 成反比。

总结

$D$ 和 $D^{'}$ 的区别：相邻数据集相差一条记录，子采样决定是否暴露该差异。
子采样的作用：以概率 $q$ 控制差异记录的参与，将分布差异限制在混合高斯模型中。
分布差异的后果：在 $D$ 上形成混合分布，而在 $D^{'}$ 上保持单一高斯分布，两者差异通过Wasserstein距离量化隐私损失。

这种设计平衡了数据效用（通过子采样保留部分差异信息）与隐私保护（通过噪声添加和分布混合），是差分隐私中“隐私-效用权衡”的典型体现。

公式推导与混合分布的构建解释

定理2中的分布差异源于子采样（Subsampling）机制和高斯噪声添加的联合作用。以下分步骤详细解释：

1. 子采样机制的作用

假设算法 $\mathcal{M}_t$ 在第 $t$ 轮迭代时：

以概率 $q$ 选择数据子集：例如，从数据集中随机抽取一个批次（Batch），其中每个样本被选中的概率为 $q$ 。
以概率 $1 - q$ 不选择该子集：即保留原始数据或使用公共数据。

相邻数据集 $D$ 和 $D^{'}$ 的差异

设相邻数据集 $D$ 和 $D^{'}$ 仅在一个样本上不同（如差分隐私的定义）。
当子采样选中该差异样本时，算法在 $D$ 和 $D^{'}$ 上的输出不同；
未选中时，算法在 $D$ 和 $D^{'}$ 上的输出相同。

2. 输出分布的构建

(1) 在数据集 $D^{'}$ 上的分布 $\Pr_{\mathcal{M}_t}(D')$

未选中差异样本：无论是否选中子集，输出分布仅依赖公共数据或未修改的数据。
高斯机制：直接添加噪声 $\mathcal{N}(0, \sigma^2)$ ，因此：
$\Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2).$

(2) 在数据集 $D$ 上的分布 $\Pr_{\mathcal{M}_t}(D)$

以概率 $1 - q$ 未选中差异样本：此时输出与 $D^{'}$ 相同，即 $\mathcal{N}(0, \sigma^2)$ 。
以概率 $q$ 选中差异样本：此时需计算差异样本的梯度 $g_t$ ，其敏感度为 $d_t = \|g_t - g_t'\|_2$ ，并添加噪声 $\mathcal{N}(d_t, \sigma^2)$ 。

综上， $D$ 的输出分布是两者的混合：
$\Pr_{\mathcal{M}_t}(D) = (1 - q) \mathcal{N}(0, \sigma^2) + q \mathcal{N}(d_t, \sigma^2).$

3. 高斯混合分布的数学推导

(1) 未选中差异样本（概率 $1 - q$ ）

算法对公共数据计算梯度，梯度敏感度为0（因无差异样本参与），加噪后分布为 $\mathcal{N}(0, \sigma^2)$ 。

(2) 选中差异样本（概率 $q$ ）

差异样本的梯度 $g_t$ 引入敏感度 $d_t = \|g_t - g_t'\|_2$ 。
高斯机制要求噪声尺度与敏感度成正比，因此加噪后的分布均值为 $d_t$ ，方差为 $\sigma^2$ ，即 $\mathcal{N}(d_t, \sigma^2)$ 。

(3) 混合分布的意义

混合分布反映了子采样的随机性：算法以概率 $q$ 暴露差异样本的影响，以概率 $1 - q$ 隐藏差异。

4. 向量 $Z_t$ 的分布解释

(1) 定义与构造

设 $Z_t$ 为噪声向量，其每个分量 $Z_{ti}$ 对应第 $i$ 维的噪声。
由于子采样和高斯机制的叠加效应， $Z_t$ 的分布需同时反映：
- 选中时的敏感度偏移：均值 $q d_t$ （因差异样本以概率 $q$ 被选中）。
- 噪声方差调整：总方差需考虑选中与未选中情况的组合。

(2) 均值与方差计算

均值：当选中的概率为 $q$ 时，期望偏移为 $\cdot d_t + (1 - q) \cdot 0 = q d_t$ 。
方差：当选中的概率为 $q$ 时，方差由两部分组成：
- 选中时的方差： $\cdot \sigma^2$ ;
- 未选中时的方差： $\cdot \sigma^2$ ;
- 总方差为 $\sigma^2 + (1 - q) \sigma^2 = \sigma^2$ ，但需考虑均值偏移带来的额外方差：
  $\text{总方差} = \sigma^2 + q(1 - q) d_t^2.$
  然而，根据定理中给出的 $Z_t \sim \mathcal{N}(q d_t, (2 - 2q + 2q^2) \sigma^2)$ ，此处可能涉及更复杂的调整（如多维协方差或机制设计的特定约束）。