在差分隐私和子采样机制中,相邻数据集 D D D 和 D ′ D' D′ 的设置、子采样的作用及其对分布的影响是理解隐私保护的关键。以下分点详细解释:
1. 相邻数据集 D D D 和 D ′ D' D′ 的定义
- 相邻数据集(Adjacent Datasets)是差分隐私的核心概念,指两个数据集 仅相差一条记录。例如:
- D D D 包含用户A的数据, D ′ D' D′ 不包含用户A的数据(或反之);
- D D D 和 D ′ D' D′ 在某一特定记录的值上不同(如医疗诊断结果)。
- 关键性质:算法对相邻数据集的处理需保证输出分布的不可区分性(即隐私保护)。
注意:
-
D
D
D 和
D
′
D'
D′ 的差异不一定是“多一条数据”,也可能是 修改或删除一条数据。例如:
- 若 D D D 有 n n n 条数据, D ′ D' D′ 可能有 n − 1 n-1 n−1 条数据(删除一条),或 n n n 条数据但某一条被修改。
2. 为什么需要子采样(Subsampling)?
子采样是一种常见的隐私增强技术,作用包括:
- 降低敏感样本的暴露概率:仅以概率 q q q 选中包含差异记录的子集,减少隐私泄露风险。
- 减少计算开销:在大数据场景下,每次迭代仅处理部分数据。
- 放大隐私保护:结合噪声机制(如高斯噪声),子采样可进一步降低隐私损失。
3. 子采样对 D D D 和 D ′ D' D′ 的影响
(1) 未选中差异记录时
- 无论处理 D D D 还是 D ′ D' D′:由于未选中差异记录,算法使用的数据子集在 D D D 和 D ′ D' D′ 上完全相同。
- 输出分布一致:此时算法的输出分布仅依赖于公共数据(即非差异部分),因此:
Pr M t ( D ) = Pr M t ( D ′ ) = N ( 0 , σ 2 ) . \Pr_{\mathcal{M}_t}(D) = \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2). MtPr(D)=MtPr(D′)=N(0,σ2).
(2) 选中差异记录时
- 仅在
D
D
D 上产生差异:选中子集包含差异记录时,
D
D
D 和
D
′
D'
D′ 的输入不同,导致输出分布偏移。
- 在 D ′ D' D′ 上,差异记录不存在(或未被修改),输出分布仍为 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)。
- 在
D
D
D 上,差异记录参与计算,导致输出分布均值为敏感度
d
t
d_t
dt,即:
Pr M t ( D ) = N ( d t , σ 2 ) . \Pr_{\mathcal{M}_t}(D) = \mathcal{N}(d_t, \sigma^2). MtPr(D)=N(dt,σ2).
(3) 混合分布的构建
由于子采样以概率
q
q
q 选中差异记录,以概率
1
−
q
1-q
1−q 未选中,
D
D
D 的输出分布为两者的加权混合:
Pr
M
t
(
D
)
=
(
1
−
q
)
N
(
0
,
σ
2
)
⏟
未选中差异记录
+
q
N
(
d
t
,
σ
2
)
⏟
选中差异记录
.
\Pr_{\mathcal{M}_t}(D) = \underbrace{(1 - q) \mathcal{N}(0, \sigma^2)}_{\text{未选中差异记录}} + \underbrace{q \mathcal{N}(d_t, \sigma^2)}_{\text{选中差异记录}}.
MtPr(D)=未选中差异记录
(1−q)N(0,σ2)+选中差异记录
qN(dt,σ2).
而
D
′
D'
D′ 无论是否选中子集,输出分布均为:
Pr
M
t
(
D
′
)
=
N
(
0
,
σ
2
)
.
\Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2).
MtPr(D′)=N(0,σ2).
4. 分布差异的直观示例
假设 d t = 1 d_t = 1 dt=1, σ 2 = 1 \sigma^2 = 1 σ2=1, q = 0.2 q = 0.2 q=0.2:
- 在 D ′ D' D′ 上:输出始终服从 N ( 0 , 1 ) \mathcal{N}(0, 1) N(0,1)。
- 在
D
D
D 上:
- 80%的概率输出 N ( 0 , 1 ) \mathcal{N}(0, 1) N(0,1);
- 20%的概率输出 N ( 1 , 1 ) \mathcal{N}(1, 1) N(1,1)。
- 效果: D D D 的分布会略微右移(均值偏向1),但大部分概率质量仍集中在0附近。
5. 隐私损失与Wasserstein距离
子采样和高斯机制的联合作用通过 限制分布差异 来控制隐私损失:
- Wasserstein距离 W μ W_\mu Wμ:衡量将 Pr ( D ) \Pr(D) Pr(D) 的分布“搬运”到 Pr ( D ′ ) \Pr(D') Pr(D′) 的最小成本。
- 敏感度 d t d_t dt:通过约束 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=∥gt−gt′∥2(梯度差异的 l 2 l_2 l2 范数),确保噪声尺度 σ \sigma σ 与隐私预算 ϵ \epsilon ϵ 成反比。
总结
- D D D 和 D ′ D' D′ 的区别:相邻数据集相差一条记录,子采样决定是否暴露该差异。
- 子采样的作用:以概率 q q q 控制差异记录的参与,将分布差异限制在混合高斯模型中。
- 分布差异的后果:在 D D D 上形成混合分布,而在 D ′ D' D′ 上保持单一高斯分布,两者差异通过Wasserstein距离量化隐私损失。
这种设计平衡了数据效用(通过子采样保留部分差异信息)与隐私保护(通过噪声添加和分布混合),是差分隐私中“隐私-效用权衡”的典型体现。
公式推导与混合分布的构建解释
定理2中的分布差异源于子采样(Subsampling)机制和高斯噪声添加的联合作用。以下分步骤详细解释:
1. 子采样机制的作用
假设算法 M t \mathcal{M}_t Mt 在第 t t t 轮迭代时:
- 以概率 q q q 选择数据子集:例如,从数据集中随机抽取一个批次(Batch),其中每个样本被选中的概率为 q q q。
- 以概率 1 − q 1-q 1−q 不选择该子集:即保留原始数据或使用公共数据。
相邻数据集 D D D 和 D ′ D' D′ 的差异
- 设相邻数据集 D D D 和 D ′ D' D′ 仅在一个样本上不同(如差分隐私的定义)。
- 当子采样选中该差异样本时,算法在 D D D 和 D ′ D' D′ 上的输出不同;
- 未选中时,算法在 D D D 和 D ′ D' D′ 上的输出相同。
2. 输出分布的构建
(1) 在数据集 D ′ D' D′ 上的分布 Pr M t ( D ′ ) \Pr_{\mathcal{M}_t}(D') PrMt(D′)
- 未选中差异样本:无论是否选中子集,输出分布仅依赖公共数据或未修改的数据。
- 高斯机制:直接添加噪声
N
(
0
,
σ
2
)
\mathcal{N}(0, \sigma^2)
N(0,σ2),因此:
Pr M t ( D ′ ) = N ( 0 , σ 2 ) . \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2). MtPr(D′)=N(0,σ2).
(2) 在数据集 D D D 上的分布 Pr M t ( D ) \Pr_{\mathcal{M}_t}(D) PrMt(D)
- 以概率 1 − q 1-q 1−q 未选中差异样本:此时输出与 D ′ D' D′ 相同,即 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)。
- 以概率 q q q 选中差异样本:此时需计算差异样本的梯度 g t g_t gt,其敏感度为 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=∥gt−gt′∥2,并添加噪声 N ( d t , σ 2 ) \mathcal{N}(d_t, \sigma^2) N(dt,σ2)。
综上,
D
D
D 的输出分布是两者的混合:
Pr
M
t
(
D
)
=
(
1
−
q
)
N
(
0
,
σ
2
)
+
q
N
(
d
t
,
σ
2
)
.
\Pr_{\mathcal{M}_t}(D) = (1 - q) \mathcal{N}(0, \sigma^2) + q \mathcal{N}(d_t, \sigma^2).
MtPr(D)=(1−q)N(0,σ2)+qN(dt,σ2).
3. 高斯混合分布的数学推导
(1) 未选中差异样本(概率 1 − q 1-q 1−q)
- 算法对公共数据计算梯度,梯度敏感度为0(因无差异样本参与),加噪后分布为 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)。
(2) 选中差异样本(概率 q q q)
- 差异样本的梯度 g t g_t gt 引入敏感度 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=∥gt−gt′∥2。
- 高斯机制要求噪声尺度与敏感度成正比,因此加噪后的分布均值为 d t d_t dt,方差为 σ 2 \sigma^2 σ2,即 N ( d t , σ 2 ) \mathcal{N}(d_t, \sigma^2) N(dt,σ2)。
(3) 混合分布的意义
- 混合分布反映了子采样的随机性:算法以概率 q q q 暴露差异样本的影响,以概率 1 − q 1-q 1−q 隐藏差异。
4. 向量 Z t Z_t Zt 的分布解释
(1) 定义与构造
- 设 Z t Z_t Zt 为噪声向量,其每个分量 Z t i Z_{ti} Zti 对应第 i i i 维的噪声。
- 由于子采样和高斯机制的叠加效应,
Z
t
Z_t
Zt 的分布需同时反映:
- 选中时的敏感度偏移:均值 q d t q d_t qdt(因差异样本以概率 q q q 被选中)。
- 噪声方差调整:总方差需考虑选中与未选中情况的组合。
(2) 均值与方差计算
- 均值:当选中的概率为 q q q 时,期望偏移为 q ⋅ d t + ( 1 − q ) ⋅ 0 = q d t q \cdot d_t + (1 - q) \cdot 0 = q d_t q⋅dt+(1−q)⋅0=qdt。
- 方差:当选中的概率为
q
q
q 时,方差由两部分组成:
- 选中时的方差: q ⋅ σ 2 q \cdot \sigma^2 q⋅σ2;
- 未选中时的方差: ( 1 − q ) ⋅ σ 2 (1 - q) \cdot \sigma^2 (1−q)⋅σ2;
- 总方差为
q
σ
2
+
(
1
−
q
)
σ
2
=
σ
2
q \sigma^2 + (1 - q) \sigma^2 = \sigma^2
qσ2+(1−q)σ2=σ2,但需考虑均值偏移带来的额外方差:
总方差 = σ 2 + q ( 1 − q ) d t 2 . \text{总方差} = \sigma^2 + q(1 - q) d_t^2. 总方差=σ2+q(1−q)dt2.
然而,根据定理中给出的 Z t ∼ N ( q d t , ( 2 − 2 q + 2 q 2 ) σ 2 ) Z_t \sim \mathcal{N}(q d_t, (2 - 2q + 2q^2) \sigma^2) Zt∼N(qdt,(2−2q+2q2)σ2),此处可能涉及更复杂的调整(如多维协方差或机制设计的特定约束)。
5. 总结
- 在 D ′ D' D′ 上的单一高斯分布:由于未涉及差异样本,所有噪声均围绕原点对称。
- 在 D D D 上的混合高斯分布:子采样导致算法以概率 q q q 泄露差异信息,从而形成混合分布。
- 隐私保护的核心:通过子采样降低差异样本被选中的概率(即降低 q q q),再通过高斯噪声掩盖敏感度 d t d_t dt,最终控制隐私损失 W μ W_\mu Wμ。
这一设计平衡了数据效用(通过子采样保留部分差异信息)与隐私保护(通过噪声添加和分布混合掩盖敏感度),是差分隐私中常见的组合技术。