差分隐私下采样导致的输出分布为混合分布

在差分隐私和子采样机制中,相邻数据集 D D D D ′ D' D 的设置、子采样的作用及其对分布的影响是理解隐私保护的关键。以下分点详细解释:


1. 相邻数据集 D D D D ′ D' D 的定义

  • 相邻数据集(Adjacent Datasets)是差分隐私的核心概念,指两个数据集 仅相差一条记录。例如:
    • D D D 包含用户A的数据, D ′ D' D 不包含用户A的数据(或反之);
    • D D D D ′ D' D 在某一特定记录的值上不同(如医疗诊断结果)。
  • 关键性质:算法对相邻数据集的处理需保证输出分布的不可区分性(即隐私保护)。
注意
  • D D D D ′ D' D 的差异不一定是“多一条数据”,也可能是 修改或删除一条数据。例如:
    • D D D n n n 条数据, D ′ D' D 可能有 n − 1 n-1 n1 条数据(删除一条),或 n n n 条数据但某一条被修改。

2. 为什么需要子采样(Subsampling)?

子采样是一种常见的隐私增强技术,作用包括:

  1. 降低敏感样本的暴露概率:仅以概率 q q q 选中包含差异记录的子集,减少隐私泄露风险。
  2. 减少计算开销:在大数据场景下,每次迭代仅处理部分数据。
  3. 放大隐私保护:结合噪声机制(如高斯噪声),子采样可进一步降低隐私损失。

3. 子采样对 D D D D ′ D' D 的影响

(1) 未选中差异记录时
  • 无论处理 D D D 还是 D ′ D' D:由于未选中差异记录,算法使用的数据子集在 D D D D ′ D' D 上完全相同。
  • 输出分布一致:此时算法的输出分布仅依赖于公共数据(即非差异部分),因此:
    Pr ⁡ M t ( D ) = Pr ⁡ M t ( D ′ ) = N ( 0 , σ 2 ) . \Pr_{\mathcal{M}_t}(D) = \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2). MtPr(D)=MtPr(D)=N(0,σ2).
(2) 选中差异记录时
  • 仅在 D D D 上产生差异:选中子集包含差异记录时, D D D D ′ D' D 的输入不同,导致输出分布偏移。
    • D ′ D' D 上,差异记录不存在(或未被修改),输出分布仍为 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)
    • D D D 上,差异记录参与计算,导致输出分布均值为敏感度 d t d_t dt,即:
      Pr ⁡ M t ( D ) = N ( d t , σ 2 ) . \Pr_{\mathcal{M}_t}(D) = \mathcal{N}(d_t, \sigma^2). MtPr(D)=N(dt,σ2).
(3) 混合分布的构建

由于子采样以概率 q q q 选中差异记录,以概率 1 − q 1-q 1q 未选中, D D D 的输出分布为两者的加权混合:
Pr ⁡ M t ( D ) = ( 1 − q ) N ( 0 , σ 2 ) ⏟ 未选中差异记录 + q N ( d t , σ 2 ) ⏟ 选中差异记录 . \Pr_{\mathcal{M}_t}(D) = \underbrace{(1 - q) \mathcal{N}(0, \sigma^2)}_{\text{未选中差异记录}} + \underbrace{q \mathcal{N}(d_t, \sigma^2)}_{\text{选中差异记录}}. MtPr(D)=未选中差异记录 (1q)N(0,σ2)+选中差异记录 qN(dt,σ2).
D ′ D' D 无论是否选中子集,输出分布均为:
Pr ⁡ M t ( D ′ ) = N ( 0 , σ 2 ) . \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2). MtPr(D)=N(0,σ2).


4. 分布差异的直观示例

假设 d t = 1 d_t = 1 dt=1, σ 2 = 1 \sigma^2 = 1 σ2=1, q = 0.2 q = 0.2 q=0.2

  • D ′ D' D:输出始终服从 N ( 0 , 1 ) \mathcal{N}(0, 1) N(0,1)
  • D D D
    • 80%的概率输出 N ( 0 , 1 ) \mathcal{N}(0, 1) N(0,1)
    • 20%的概率输出 N ( 1 , 1 ) \mathcal{N}(1, 1) N(1,1)
  • 效果 D D D 的分布会略微右移(均值偏向1),但大部分概率质量仍集中在0附近。

5. 隐私损失与Wasserstein距离

子采样和高斯机制的联合作用通过 限制分布差异 来控制隐私损失:

  • Wasserstein距离 W μ W_\mu Wμ:衡量将 Pr ⁡ ( D ) \Pr(D) Pr(D) 的分布“搬运”到 Pr ⁡ ( D ′ ) \Pr(D') Pr(D) 的最小成本。
  • 敏感度 d t d_t dt:通过约束 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=gtgt2(梯度差异的 l 2 l_2 l2 范数),确保噪声尺度 σ \sigma σ 与隐私预算 ϵ \epsilon ϵ 成反比。

总结

  • D D D D ′ D' D 的区别:相邻数据集相差一条记录,子采样决定是否暴露该差异。
  • 子采样的作用:以概率 q q q 控制差异记录的参与,将分布差异限制在混合高斯模型中。
  • 分布差异的后果:在 D D D 上形成混合分布,而在 D ′ D' D 上保持单一高斯分布,两者差异通过Wasserstein距离量化隐私损失。

这种设计平衡了数据效用(通过子采样保留部分差异信息)与隐私保护(通过噪声添加和分布混合),是差分隐私中“隐私-效用权衡”的典型体现。


公式推导与混合分布的构建解释

定理2中的分布差异源于子采样(Subsampling)机制高斯噪声添加的联合作用。以下分步骤详细解释:


1. 子采样机制的作用

假设算法 M t \mathcal{M}_t Mt 在第 t t t 轮迭代时:

  • 以概率 q q q 选择数据子集:例如,从数据集中随机抽取一个批次(Batch),其中每个样本被选中的概率为 q q q
  • 以概率 1 − q 1-q 1q 不选择该子集:即保留原始数据或使用公共数据。
相邻数据集 D D D D ′ D' D 的差异
  • 设相邻数据集 D D D D ′ D' D 仅在一个样本上不同(如差分隐私的定义)。
  • 当子采样选中该差异样本时,算法在 D D D D ′ D' D 上的输出不同;
  • 未选中时,算法在 D D D D ′ D' D 上的输出相同。

2. 输出分布的构建

(1) 在数据集 D ′ D' D 上的分布 Pr ⁡ M t ( D ′ ) \Pr_{\mathcal{M}_t}(D') PrMt(D)
  • 未选中差异样本:无论是否选中子集,输出分布仅依赖公共数据或未修改的数据。
  • 高斯机制:直接添加噪声 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2),因此:
    Pr ⁡ M t ( D ′ ) = N ( 0 , σ 2 ) . \Pr_{\mathcal{M}_t}(D') = \mathcal{N}(0, \sigma^2). MtPr(D)=N(0,σ2).
(2) 在数据集 D D D 上的分布 Pr ⁡ M t ( D ) \Pr_{\mathcal{M}_t}(D) PrMt(D)
  • 以概率 1 − q 1-q 1q 未选中差异样本:此时输出与 D ′ D' D 相同,即 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)
  • 以概率 q q q 选中差异样本:此时需计算差异样本的梯度 g t g_t gt,其敏感度为 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=gtgt2,并添加噪声 N ( d t , σ 2 ) \mathcal{N}(d_t, \sigma^2) N(dt,σ2)

综上, D D D 的输出分布是两者的混合:
Pr ⁡ M t ( D ) = ( 1 − q ) N ( 0 , σ 2 ) + q N ( d t , σ 2 ) . \Pr_{\mathcal{M}_t}(D) = (1 - q) \mathcal{N}(0, \sigma^2) + q \mathcal{N}(d_t, \sigma^2). MtPr(D)=(1q)N(0,σ2)+qN(dt,σ2).


3. 高斯混合分布的数学推导

(1) 未选中差异样本(概率 1 − q 1-q 1q
  • 算法对公共数据计算梯度,梯度敏感度为0(因无差异样本参与),加噪后分布为 N ( 0 , σ 2 ) \mathcal{N}(0, \sigma^2) N(0,σ2)
(2) 选中差异样本(概率 q q q
  • 差异样本的梯度 g t g_t gt 引入敏感度 d t = ∥ g t − g t ′ ∥ 2 d_t = \|g_t - g_t'\|_2 dt=gtgt2
  • 高斯机制要求噪声尺度与敏感度成正比,因此加噪后的分布均值为 d t d_t dt,方差为 σ 2 \sigma^2 σ2,即 N ( d t , σ 2 ) \mathcal{N}(d_t, \sigma^2) N(dt,σ2)
(3) 混合分布的意义
  • 混合分布反映了子采样的随机性:算法以概率 q q q 暴露差异样本的影响,以概率 1 − q 1-q 1q 隐藏差异。

4. 向量 Z t Z_t Zt 的分布解释

(1) 定义与构造
  • Z t Z_t Zt 为噪声向量,其每个分量 Z t i Z_{ti} Zti 对应第 i i i 维的噪声。
  • 由于子采样和高斯机制的叠加效应, Z t Z_t Zt 的分布需同时反映:
    • 选中时的敏感度偏移:均值 q d t q d_t qdt(因差异样本以概率 q q q 被选中)。
    • 噪声方差调整:总方差需考虑选中与未选中情况的组合。
(2) 均值与方差计算
  • 均值:当选中的概率为 q q q 时,期望偏移为 q ⋅ d t + ( 1 − q ) ⋅ 0 = q d t q \cdot d_t + (1 - q) \cdot 0 = q d_t qdt+(1q)0=qdt
  • 方差:当选中的概率为 q q q 时,方差由两部分组成:
    • 选中时的方差: q ⋅ σ 2 q \cdot \sigma^2 qσ2;
    • 未选中时的方差: ( 1 − q ) ⋅ σ 2 (1 - q) \cdot \sigma^2 (1q)σ2;
    • 总方差为 q σ 2 + ( 1 − q ) σ 2 = σ 2 q \sigma^2 + (1 - q) \sigma^2 = \sigma^2 qσ2+(1q)σ2=σ2,但需考虑均值偏移带来的额外方差:
      总方差 = σ 2 + q ( 1 − q ) d t 2 . \text{总方差} = \sigma^2 + q(1 - q) d_t^2. 总方差=σ2+q(1q)dt2.
      然而,根据定理中给出的 Z t ∼ N ( q d t , ( 2 − 2 q + 2 q 2 ) σ 2 ) Z_t \sim \mathcal{N}(q d_t, (2 - 2q + 2q^2) \sigma^2) ZtN(qdt,(22q+2q2)σ2),此处可能涉及更复杂的调整(如多维协方差或机制设计的特定约束)。

5. 总结

  • D ′ D' D 上的单一高斯分布:由于未涉及差异样本,所有噪声均围绕原点对称。
  • D D D 上的混合高斯分布:子采样导致算法以概率 q q q 泄露差异信息,从而形成混合分布。
  • 隐私保护的核心:通过子采样降低差异样本被选中的概率(即降低 q q q),再通过高斯噪声掩盖敏感度 d t d_t dt,最终控制隐私损失 W μ W_\mu Wμ

这一设计平衡了数据效用(通过子采样保留部分差异信息)与隐私保护(通过噪声添加和分布混合掩盖敏感度),是差分隐私中常见的组合技术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高山莫衣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值