差异私有联邦学习:客户端级别

Differentially Private Federated Learning: A Client Level Perspective

本文发表于 NIPS 2017 会议

当一个模型以传统的方式学习时,它的参数揭示了关于训练期间使用的数据的信息。为了解决这一问题,提出了学习算法的差分隐私(dp)的概念。这样做的目的是确保学习的模型不会泄露在训练过程中是否使用了某个数据点。我们提出了一种将dp保持机制整合到联邦学习中的算法。然而,我们的目标不是只保护的单个数据点。我们希望确保学习的模型不会显示客户端是否参与了分散训练。这意味着客户机的整个数据集受到保护,以防止来自其他客户机的不同攻击。

而作者的贡献在于证明了我们提出的算法可以在模型性能损失很小的情况下实现客户端级别的差异隐私。其次,我们提出在分散训练过程中动态调整dp保持机制。实证研究表明,这样可以提高模型的性能。

1. 差分隐私的定义:

图片中的差分隐私定义为一个随机化机制
M : D → R ,其中 D 表示输入数据集的域, R 是输出范围。这个机制满足 ϵ , δ − 差分隐私( D P ), M: D \rightarrow R,其中 D 表示输入数据集的域, R 是输出范围。这个机制满足 \epsilon, \delta-差分隐私(DP), M:DR,其中D表示输入数据集的域,R是输出范围。这个机制满足ϵ,δ差分隐私(DP),
如果对于任意相邻的输入 d 和 d ′ (它们的差异仅为一个数据点),以及任意输出集合 S ⊆ R 我们有: 如果对于任意相邻的输入 d 和 d' (它们的差异仅为一个数据点),以及任意输出集合 S \subseteq R 我们有: 如果对于任意相邻的输入dd(它们的差异仅为一个数据点),以及任意输出集合SR我们有:

P [ M ( d ) ∈ S ] ≤ e ϵ P [ M ( d ′ ) ∈ S ] + δ P[M(d) \in S] \leq e^\epsilon P[M(d') \in S] + \delta P[M(d)S]eϵP[M(d)S]+δ
其中:

  • ϵ :隐私预算,衡量隐私损失的大小。值越小,隐私保护越好。 \epsilon :隐私预算,衡量隐私损失的大小。值越小,隐私保护越好。 ϵ:隐私预算,衡量隐私损失的大小。值越小,隐私保护越好。
  • δ :用于允许某些概率上的泄漏,通常是一个很小的值。当隐私机制稍微违反 ϵ − D P 时, δ 可以给出一个概率界限。 \delta :用于允许某些概率上的泄漏,通常是一个很小的值。当隐私机制稍微违反 \epsilon-DP时,\delta 可以给出一个概率界限。 δ:用于允许某些概率上的泄漏,通常是一个很小的值。当隐私机制稍微违反ϵDP时,δ可以给出一个概率界限。

这个定义表明,机制 ( M ) 对于相邻输入 ( d ) 和 ( d’ ) 产生的输出差异在一定程度上是有限的,从而保证了输入数据的隐私性。

2. 高斯机制(Gaussian Mechanism, GM)的解释:

高斯机制用于通过添加噪声来保护隐私。它针对实值函数 f : D → R 进行差分隐私处理。高斯机制通过加入根据数据集的敏感度 S f 校准的高斯噪声来保护隐私。 高斯机制用于通过添加噪声来保护隐私。它针对实值函数 f: D \rightarrow R 进行差分隐私处理。高斯机制通过加入根据数据集的敏感度 S_f 校准的高斯噪声来保护隐私。 高斯机制用于通过添加噪声来保护隐私。它针对实值函数f:DR进行差分隐私处理。高斯机制通过加入根据数据集的敏感度Sf校准的高斯噪声来保护隐私。

公式:

M ( d ) = f ( d ) + N ( 0 , σ 2 S f 2 ) M(d) = f(d) + \mathcal{N}(0, \sigma^2 S_f^2) M(d)=f(d)+N(0,σ2Sf2)

解释:

  • f ( d ) :对数据 d 的函数值输出。 f(d) :对数据 d 的函数值输出。 f(d):对数据d的函数值输出。

  • N ( 0 , σ 2 S f 2 ) :高斯噪声,均值为 0 ,方差为 σ 2 S f 2 。 \mathcal{N}(0, \sigma^2 S_f^2) :高斯噪声,均值为 0,方差为 \sigma^2 S_f^2 。 N(0,σ2Sf2):高斯噪声,均值为0,方差为σ2Sf2

    S f :函数 f 的敏感度,定义为相邻输入数据集 d 和 d ′ 之间的最大输出差异: S_f :函数 f 的敏感度,定义为相邻输入数据集 d 和 d' 之间的最大输出差异: Sf:函数f的敏感度,定义为相邻输入数据集dd之间的最大输出差异:

    S f = max ⁡ d , d ′ ∥ f ( d ) − f ( d ′ ) ∥ 这意味着 S f 衡量了相邻输入在输出上可能产生的最大变化,确保差分隐私的保护强度。 S_f = \max_{d, d'} \|f(d) - f(d')\| 这意味着 S_f 衡量了相邻输入在输出上可能产生的最大变化,确保差分隐私的保护强度。 Sf=d,dmaxf(d)f(d)这意味着Sf衡量了相邻输入在输出上可能产生的最大变化,确保差分隐私的保护强度。

高斯噪声:

噪声的大小由 S f 和 σ  决定,其中 σ 是噪声的尺度参数。敏感度 S f 越大,意味着输出变化越大,需要更大的噪声来遮掩输入数据的影响。 噪声的大小由 S_f 和 \sigma \ 决定,其中 \sigma 是噪声的尺度参数。敏感度 S_f 越大,意味着输出变化越大,需要更大的噪声来遮掩输入数据的影响。 噪声的大小由Sfσ 决定,其中σ是噪声的尺度参数。敏感度Sf越大,意味着输出变化越大,需要更大的噪声来遮掩输入数据的影响。

3. 隐私损失的累积:

文中讨论了当多次查询高斯机制时,隐私损失的累积问题。设σ和 ε 是固定值,考虑高斯机制对 f(d) 的单次查询。我们可以通过以下公式对差分隐私破坏的概率进行界定:

δ ≤ 4 5 exp ⁡ ( − ( σ ϵ ) 2 2 ) \delta \leq \frac{4}{5} \exp\left(-\frac{(\sigma \epsilon)^2}{2}\right) δ54exp(2(σϵ)2)

推导解释:
  • 这个公式说明了差分隐私被破坏的概率 δ 与隐私参数 ε 和噪声尺度σ之间的关系。
  • ε越小(隐私保护越强),或者 σ 越大(噪声越多),破坏隐私的概率 δ就越小。
  • 需要注意,δ 是累积的,这意味着随着连续的查询次数增加,隐私泄漏的风险也会逐渐增大。

4. 差分隐私随机梯度下降(dp-SGD):

文中最后提到了差分隐私随机梯度下降算法(dp-SGD),这是将差分隐私应用于梯度下降的过程。dp-SGD 在每次迭代中对梯度进行随机抽样,并通过高斯机制对每个批次的梯度进行差分隐私保护。

具体步骤包括:

  1. 每次迭代中,dp-SGD 选择随机的小批量数据进行梯度计算。
  2. 通过高斯机制为每个批次添加噪声来保证梯度的隐私性。
  3. 训练过程中,隐私审计员跟踪 ( \delta ) 的累积情况,并在达到预设的阈值时停止训练。

这个过程确保了模型在训练过程中能够保护数据隐私,同时在达到一定隐私泄露概率之前停止训练,从而防止过度泄露隐私。

总结:

  1. 差分隐私的核心思想是通过引入噪声,保证模型输出对相邻输入集的变化不敏感,从而保护数据隐私。
  2. 高斯机制通过对实值函数添加高斯噪声来实现差分隐私保护。
  3. 随着查询次数的增加,隐私损失会累积,因此需要设计合理的隐私审计机制来控制隐私泄露的概率。

好的,我现在对这两张图片中的公式和符号进行详细的中文解释。

  1. 随机子采样(Random sub-sampling)

    • K 表示总的客户端数量,每次通信轮次随机采样一个客户端子集 Z t ,其大小为 m t ,并且 m t < K 。 K 表示总的客户端数量,每次通信轮次随机采样一个客户端子集 Z_t ,其大小为 m_t ,并且 m_t < K 。 K表示总的客户端数量,每次通信轮次随机采样一个客户端子集Zt,其大小为mt,并且mt<K
    • 中央服务器将模型 w t 仅发送给这个子集中的客户端。客户端基于它们本地的数据对模型进行优化,得到一系列本地模型 { w k t } k = 1 m t 。 中央服务器将模型 w_t 仅发送给这个子集中的客户端。客户端基于它们本地的数据对模型进行优化,得到一系列本地模型 \{w_k^t\}_{k=1}^{m_t} 。 中央服务器将模型wt仅发送给这个子集中的客户端。客户端基于它们本地的数据对模型进行优化,得到一系列本地模型{wkt}k=1mt
    • 更新公式为: Δ w k = w k t − w t 即客户端 k 对模型的更新是本地模型和中央服务器模型的差值。 更新公式为:\Delta w^k = w_k^t - w_t即客户端 k 对模型的更新是本地模型和中央服务器模型的差值。 更新公式为:Δwk=wktwt即客户端k对模型的更新是本地模型和中央服务器模型的差值。
  2. 加噪(Distorting)

    • 使用高斯机制(Gaussian Mechanism,GM)来扰动更新量的总和。高斯机制为模型更新量添加高斯噪声,用以保护隐私。此处涉及到敏感度(sensitivity),其定义是函数对输入数据的最大变化。具体来说,敏感度定义为:
      Δ w ˉ k = Δ w k max ⁡ ( 1 , ∣ ∣ Δ w k ∣ ∣ 2 S ) \Delta \bar{w}^k = \frac{\Delta w^k}{\max(1, \frac{||\Delta w^k||_2}{S})} Δwˉk=max(1,S∣∣Δwk2)Δwk
      该公式的含义是,使用比例缩放来确保更新量的敏感度不超过 ( S )(设定的阈值)。这样可以避免单个客户端的贡献过大,从而泄露隐私。
  3. 中央模型更新

    • 中央服务器对每轮次的模型进行更新,公式为:
      w t + 1 = w t + 1 m t ( ∑ k = 0 m t Δ w k max ⁡ ( 1 , ∣ ∣ Δ w k ∣ ∣ 2 S ) + N ( 0 , σ 2 S 2 ) ) w_{t+1} = w_t + \frac{1}{m_t} \left( \sum_{k=0}^{m_t} \frac{\Delta w^k}{\max(1, \frac{||\Delta w^k||_2}{S})} + \mathcal{N}(0, \sigma^2 S^2) \right) wt+1=wt+mt1(k=0mtmax(1,S∣∣Δwk2)Δwk+N(0,σ2S2))

      公式中, N ( 0 , σ 2 S 2 )  表示添加的高斯噪声,其方差为 σ 2 S 2 。该噪声用于保护更新量的隐私。 公式中,\mathcal{N}(0, \sigma^2 S^2) \ 表示添加的高斯噪声,其方差为 \sigma^2 S^2 。该噪声用于保护更新量的隐私。 公式中,N(0,σ2S2) 表示添加的高斯噪声,其方差为σ2S2。该噪声用于保护更新量的隐私。

  4. 账户机制

    • 使用了“隐私会计”的方法,每次更新时计算隐私损失δ,并根据设定的 ε, σ 和 m 来保证满足差分隐私的要求。当δ 超过一定阈值时,停止训练。
  5. 选择 S 的权衡

    • S 是裁剪贡献的阈值。选择较小的 S 可以减少噪声带来的隐私损失,但同时可能导致信息损失。较大的 S 则反之。作者建议需要权衡噪声和隐私损失,并且 S 不应过大,以免噪声方差过大。
  6. 客户端之间的方差定义

    • 定义某一参数 (i, j) 在第 t 轮次的更新量为
      VAR [ Δ w i , j ] = 1 K ∑ k = 0 K ( Δ w i , j k − μ i , j ) 2 \text{VAR}[\Delta w_{i,j}] = \frac{1}{K} \sum_{k=0}^{K} (\Delta w_{i,j}^k - \mu_{i,j})^2 VAR[Δwi,j]=K1k=0K(Δwi,jkμi,j)2
      所有客户端更新量的平均值,定义为:
      μ i , j = 1 K ∑ k = 0 K Δ w i , j k \mu_{i,j} = \frac{1}{K} \sum_{k=0}^{K} \Delta w_{i,j}^k μi,j=K1k=0KΔwi,jk
      该方差衡量了所有客户端在同一参数上的更新分布差异性。
  7. 更新方差的总和

    • 将所有客户端的更新方差求和,得到客户端之间的方差 ( V_c ),其定义为:
      V c = 1 q × p ∑ i = 0 q ∑ j = 0 p VAR [ Δ w i , j ] V_c = \frac{1}{q \times p} \sum_{i=0}^{q} \sum_{j=0}^{p} \text{VAR}[\Delta w_{i,j}] Vc=q×p1i=0qj=0pVAR[Δwi,j]
      其中 ( q ) 和 ( p ) 分别是参数矩阵的行数和列数。
  8. 更新量的尺度定义

    • 定义更新量的尺度 ( U_s ),其公式为:
      U s = 1 q × p ∑ i = 0 q ∑ j = 0 p μ i , j 2 U_s = \frac{1}{q \times p} \sum_{i=0}^{q} \sum_{j=0}^{p} \mu_{i,j}^2 Us=q×p1i=0qj=0pμi,j2
      该公式表示所有客户端更新的平方和,表示更新量的平均大小。

总结

主要介绍了在联邦学习中如何通过高斯机制和裁剪来保护客户端的隐私,并提出了如何选择合适的裁剪参数 S 和噪声参数 σ。通过引入高斯噪声,可以确保客户端的更新量不泄露敏感信息,同时还定义了衡量客户端之间差异的方差 ( V_c ) 和更新量的尺度 ( U_s )。

高斯机制(Gaussian Mechanism)是差分隐私(Differential Privacy)中常用的一种技术,用于在计算时添加噪声以保护数据隐私。具体来说,高斯机制通过向计算结果中加入**服从正态分布(即高斯分布)**的随机噪声,来限制因数据变化而带来的输出结果差异,从而防止敏感数据泄露。

  1. Choosing ( S ):梯度裁剪公式详细讲解

    在算法中,梯度裁剪(Gradient Clipping)是为了防止某些客户端的梯度过大,对整体模型产生过大影响。为了理解这里的梯度裁剪公式,我们需要从差分隐私的角度来解释它的作用。

    1. 为什么需要裁剪梯度?

    在联邦学习中,每个客户端独立计算其模型更新,但不同客户端的数据分布可能差异很大。某些客户端的更新可能会非常大,导致模型更新时出现不稳定或过拟合等问题。同时,这些大的梯度更新也可能泄露客户端的私人信息。因此,为了避免这些问题,差分隐私算法会在每次更新时限制(裁剪)梯度的大小。

    2. 梯度裁剪公式

    梯度裁剪的目的是将过大的梯度缩放到一个固定的范围。公式如下:
    Δ w = Δ w max ⁡ ( 1 , ∥ Δ w ∥ 2 S ) \Delta w = \frac{\Delta w}{\max(1, \frac{\|\Delta w\|_2}{S})} Δw=max(1,S∥Δw2)Δw
    这个公式看起来复杂,但可以逐步拆解理解:

    • ∥ Δ w ∥ 2 :表示梯度 Δ w 的 2 − 范数(即梯度向量的欧几里得长度)。这个值度量了梯度更新的大小。 \|\Delta w\|_2 :表示梯度 \Delta w 的 2-范数(即梯度向量的欧几里得长度)。这个值度量了梯度更新的大小。 ∥Δw2:表示梯度Δw2范数(即梯度向量的欧几里得长度)。这个值度量了梯度更新的大小。

    • S :是一个预设的剪切阈值,代表允许的最大梯度范数。如果梯度更新 ∥ Δ w ∥ 2 超过这个值,我们就会对它进行缩放,使其不超过 S 。 S :是一个预设的剪切阈值,代表允许的最大梯度范数。如果梯度更新 \|\Delta w\|_2 超过这个值,我们就会对它进行缩放,使其不超过 S 。 S:是一个预设的剪切阈值,代表允许的最大梯度范数。如果梯度更新∥Δw2超过这个值,我们就会对它进行缩放,使其不超过S

    • max ⁡ ( 1 , ∥ Δ w ∥ 2 S ) :这是控制梯度缩放的因子。如果梯度的范数 ∥ Δ w ∥ 2 小于 S 则 max ⁡ ( 1 , ∥ Δ w ∥ 2 S ) 等于 1 ,表示不需要缩放,梯度保持原样。如果梯度的范数超过了 S 则会缩放它,使其最大范数变为 S \max(1, \frac{\|\Delta w\|_2}{S}) :这是控制梯度缩放的因子。如果梯度的范数 \|\Delta w\|_2 小于 S 则 \max(1, \frac{\|\Delta w\|_2}{S}) 等于 1,表示不需要缩放,梯度保持原样。如果梯度的范数超过了 S 则会缩放它,使其最大范数变为 S max(1,S∥Δw2):这是控制梯度缩放的因子。如果梯度的范数∥Δw2小于Smax(1,S∥Δw2)等于1,表示不需要缩放,梯度保持原样。如果梯度的范数超过了S则会缩放它,使其最大范数变为S

    • 具体的作用

      • 如果梯度的范数 ∥ Δ w ∥ 2 小于 S 公式中的 max ⁡ ( 1 , ∥ Δ w ∥ 2 S ) 为 1 ,因此梯度不会发生变化。 如果梯度的范数 \|\Delta w\|_2 小于 S 公式中的 \max(1, \frac{\|\Delta w\|_2}{S}) 为 1,因此梯度不会发生变化。 如果梯度的范数∥Δw2小于S公式中的max(1,S∥Δw2)1,因此梯度不会发生变化。
      • 如果梯度的范数 ∥ Δ w ∥ 2 大于 S ,公式将 Δ w 按照比例缩小,使得更新后的梯度的范数刚好等于 S ,即 ∥ Δ w ∥ 2 = S 。 如果梯度的范数 \|\Delta w\|_2 大于 S ,公式将 \Delta w 按照比例缩小,使得更新后的梯度的范数刚好等于 S ,即 \|\Delta w\|_2 = S 。 如果梯度的范数∥Δw2大于S,公式将Δw按照比例缩小,使得更新后的梯度的范数刚好等于S,即∥Δw2=S

    3. 梯度裁剪的好处

    • 稳定模型更新:裁剪过大的梯度可以防止模型出现不稳定的情况,特别是在数据不均衡或者某些客户端梯度特别大的情况下。

    • 保护隐私:通过限制梯度的大小,可以减少某些用户对整体模型的过大影响,同时防止某个客户端的私人数据通过过大的梯度更新泄露。

    总结

    梯度裁剪的核心思想就是通过限制梯度的最大范数 ( S ),来确保模型更新的稳定性和差分隐私保护。在差分隐私联邦学习中,梯度裁剪和添加噪声共同保护客户端的数据隐私。

  2. Choosing (σ) and ( m ):
    差分隐私的噪声参数 ( σ ) 和参与更新的客户端数量 ( m ) 是非常关键的两个隐私参数。具体来说,噪声标准差 ( σ ) 决定了添加的高斯噪声的强度,噪声的强度越大,隐私保护越强,但同时模型的精度可能下降。
    参数 ( m ) 是每一轮参与更新的客户端数量,通常会从所有客户端中随机选择一部分进行更新,这种随机性也有助于隐私保护,因为并不是每个客户端在每一轮都参与更新。通过控制 ( m ) 和 ( σ),可以在差分隐私预算 ( ε ) 和模型性能之间找到平衡。
    选择 ( σ ) 时,需要根据隐私预算 ( ε ) 来确定;同时,选择 ( m ) 时,也要考虑客户端的数量和参与更新的频率,以确保模型的有效性和隐私保护。

  3. Definition部分:
    在文中的定义部分,算法采用了"moment accountant"(时刻账簿)方法来计算差分隐私的累积隐私损失。具体来说,差分隐私是通过给每轮更新加上噪声来实现的,而噪声的标准差是通过差分隐私预算 ( ε ) 和参与更新的客户端数量 ( m ) 来确定。
    公式中的 ( σ ) 是破坏 ( ε )-差分隐私的概率,算法通过控制 ( σ ) 的值来停止训练,从而确保在给定的隐私预算下,差分隐私的保护效果。具体地,“moments accountant” 能够在多轮通信的过程中,跟踪累积的隐私损失,确保在不超出预定的隐私预算的前提下进行训练。


模型参数更新为什么是 “+”:

在SGD(随机梯度下降)中,常见的公式是:
w t + 1 = w t − η ∇ L ( w t ) w_{t+1} = w_t - \eta \nabla L(w_t) wt+1=wtηL(wt)
表示权重更新时沿着梯度下降的方向移动,即通过减号来更新权重。

然而,在文中提供的差分隐私联邦学习算法中,公式为:
w t + 1 = w t + 1 m ∑ k = 1 m Δ w t k + N ( 0 , S 2 ⋅ σ 2 ) w_{t+1} = w_t + \frac{1}{m} \sum_{k=1}^m \Delta w_t^k + \mathcal{N}(0, S^2 \cdot \sigma^2) wt+1=wt+m1k=1mΔwtk+N(0,S2σ2)
这里的 “+” 号表示的并不是梯度下降的方向,而是指在进行梯度更新后进行模型的聚合,也就是汇总来自各个客户端的更新值。

换句话说,联邦学习中的这个 “+” 号指的是在服务端汇总各个客户端的梯度更新时,做一个加和的操作,而不是在单个客户端上更新时的"下降"操作。所以,虽然在每个客户端上还是用传统的SGD进行更新(即使用"-“号),但服务端需要将这些更新聚合起来,这时用到的是”+"号。

在这里插入图片描述

算法 1: Client-side Differentially Private Federated Optimization

该算法描述了联邦学习中差分隐私的具体实现过程,尤其是在客户端级别如何保持隐私的同时进行模型优化。我们来逐步解释每一行:

输入参数:
  • K: 参与训练的客户端数量。
  • B: 本地的小批量数据大小(mini-batch size)。
  • η: 学习率,用于梯度下降更新模型参数。
  • E: 本地训练轮数(Epoch)。
  • T: 通信轮数(联邦学习中通常需要多轮通信)。
  • δ: 隐私损失预算参数。
  • S: 更新时剪切的阈值,决定了每轮更新时的敏感性。
  • Q: 隐私损失预算的阈值,当 δ 超过 Q 时停止训练。
步骤 1: 初始化
  • 初始化模型权重 w_0 和隐私会计工具 Accountant(ε, K)。Accountant 会记录每轮的隐私损失。
步骤 2: 迭代通信轮数 (T 次)
  • 进入主循环,每一轮进行一次联邦学习的通信过程。
步骤 3: 检查隐私预算
  • 每一轮开始时,Accountant 计算当前隐私损失。如果累计的隐私预算 δ 超过阈值 Q,则停止训练(第5行)。
步骤 4: 随机选择部分客户端
  • K 个客户端中随机选择一个子集 Z_t 进行更新,保证差分隐私(第6行)。
步骤 5: 并行更新客户端模型
  • 对每个选中的客户端进行并行更新,每个客户端都会执行本地更新并返回更新值和更新的范数。这里的更新过程是基于梯度下降的(第8-18行)。
步骤 6: 剪切更新值
  • 计算所有客户端更新值范数的中位数 S,然后使用剪切操作确保更新的敏感性被限制在 S 之内。此处的剪切是基于更新值的范数,即如果更新值过大,就会被缩小到阈值 S 以内(第9行)。
步骤 7: 高斯噪声机制
  • 使用高斯机制(Gaussian Mechanism)添加噪声来保证差分隐私。噪声的方差由 S² · σ² 决定,噪声会加到所有剪切后的更新值上,进一步保证隐私(第10行)。
步骤 8: 更新中心模型
  • 最终的中心模型 w_{t+1} 是基于所有客户端更新的加权平均,并加入了噪声保护的结果(第10行)。公式如下:
    w t + 1 = w t + 1 m t ( ∑ k = 0 m t Δ w t k max ⁡ ( 1 , ∥ Δ w t k ∥ 2 S ) + N ( 0 , S 2 σ 2 ) ) w_{t+1} = w_t + \frac{1}{m_t} \left( \sum_{k=0}^{m_t} \frac{\Delta w^k_t}{\max(1, \frac{\|\Delta w^k_t\|_2}{S})} + \mathcal{N}(0, S^2 \sigma^2) \right) wt+1=wt+mt1(k=0mtmax(1,S∥Δwtk2)Δwtk+N(0,S2σ2))
    这里我们看到剪切后的更新值加上了高斯噪声。
本地客户端更新(ClientUpdate):
  • 客户端基于小批量梯度下降(mini-batch SGD)更新本地模型(第12-18行)。
  • 对于每个客户端来说,模型更新通过对每个小批量数据执行梯度下降来完成。更新后返回模型更新值和更新值的范数。

1. 实验结果描述与表格解析

在这里插入图片描述

表格说明(Table 1)

  • 表格中列举了在不同客户端数量 K∈{100,1000,10000}下模型的最佳性能。
  • 主要指标包括:
    • ACC(Accuracy):模型在非IID数据集上的分类准确性。
    • CR(Communication Rounds):模型达到最高准确性时所需的通信轮次。
    • CC(Communication Costs):通信成本,定义为在整个训练过程中客户端发送更新的次数之和。该值通常用来衡量在不同联邦学习策略下通信的开销大小。
  • 作为对比,表格还列举了非差分隐私模型在 K=100时的ACC、CR和CC,作为基准性能参考。
  • 在这里插入图片描述

2. Figure 1 图表解析

**图 1:**该图展示了在不同客户端数量 K 下(K=100,1000,10000)联邦学习模型的分类准确性随通信轮次的变化情况。图中用不同颜色的曲线表示差分隐私模型(绿色、黄色、红色曲线)与非差分隐私模型(蓝色曲线)的表现:

  • 黄色曲线(100 clients, non-differentially private):
    • 非差分隐私模型的准确性提升速度较快,在少量通信轮次(< 20)时就达到了较高的准确性(约 0.90)。
    • 训练较早收敛,并且最终达到了最高准确性。
  • 绿色、蓝色和红色曲线(Differentially private models with different K values):
    • 差分隐私模型的准确性提升速度较慢,在达到同样准确性时所需的通信轮次明显更多。
    • 其中,客户端数量越多(如红色的 10000 clients),模型的最终准确性提升较为显著,表明更多客户端参与训练能够在一定程度上弥补差分隐私机制引入的噪声干扰。
    • 曲线末端的点表示模型达到预设的 δ阈值时停止训练的轮次。可以看到,随着客户端数量增加,达到该阈值时的准确性有明显提升(如10000 clients的准确性接近0.95)。

**总结:**图1表明非差分隐私模型的训练效果优于差分隐私模型,而在差分隐私模型中,客户端数量越多,最终的模型准确性越高,收敛速度也相对较快。

在这里插入图片描述

3. Figure 2 图表解析

**图 2:**该图展示了在非差分隐私模型(K=100)的联邦学习过程中,模型准确性、客户端更新的方差(between clients variance)与更新尺度(update scale)之间的变化趋势:

  • 黑色曲线(Accuracy)
    • 模型的分类准确性随着通信轮次的增加逐渐提升,并且在训练后期趋于平稳,表明模型在不断优化过程中最终达到某个稳定点。
  • 红色曲线(Between clients variance)
    • 表示不同客户端之间的参数更新方差。在训练初期方差较大,随着通信轮次增加逐渐减小,并在接近模型收敛时达到一个低值,表明在训练过程中不同客户端的更新逐渐趋于一致。
    • 这一趋势反映了模型在训练后期,客户端数据对全局模型的影响逐渐收敛,更新差异缩小。
  • 绿色曲线(Update scale)
    • 表示更新尺度(即每轮更新的幅度)。曲线显示更新尺度在训练初期较大,而随着训练的进行逐渐减小。
    • 当更新尺度减小时,表明模型的学习率逐渐降低,模型逐步稳定,不再对参数进行大幅度调整。

**总结:**图2表明在联邦学习的训练过程中,不同客户端的参数更新差异(方差)与整体模型更新尺度是动态变化的。通常在训练初期,方差和更新尺度较大,而随着训练逐渐接近收敛,方差和更新尺度会逐渐缩小,表明模型对参数的调整逐步减小,不同客户端的更新差异趋于一致,模型最终稳定在某个最佳性能点。

4. 实验结论

通过这两张图的实验结果分析,我们可以得出以下结论:

  1. 客户端数量对模型性能的影响: 随着客户端数量的增加,模型能够取得更高的分类准确性,并且在差分隐私机制下表现出更好的抗噪声干扰能力。
  2. 通信轮次与通信成本: 在差分隐私模型中,更多的客户端参与训练通常意味着更大的通信开销,但也能够帮助模型在多轮通信后达到更高的性能。
  3. 不同客户端的更新差异: 在联邦学习中,不同客户端的更新差异随着训练的进行而逐步减小,这与联邦学习的目标一致,即在保证数据隐私的同时达到全局模型的收敛性。

总的来说,这两张图表全面展示了在差分隐私联邦学习中的性能变化和影响因素,对于理解联邦学习在实际应用中的优势和局限性具有重要参考价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值