A Communication-Efficient Collaborative Learning Framework for Distributed Features

A Communication-Efficient Collaborative Learning Framework for Distributed Features

这篇文章《A Communication-Efficient Collaborative Learning Framework for Distributed Features》出自 arXiv,于 2019 年 12 月首次发布,2020 年 7 月 31 日更新至第 6 版(v6)。

  • 背景与动机:数据孤岛在不同组织中普遍存在,协同学习成为解决数据孤岛和隐私问题的有吸引力的方案。但现有架构在通信敏感场景中未充分解决通信问题,且存在数据泄漏和通信开销昂贵等问题。
  • 方法:提出了一种名为 Federated stochastic block coordinate descent(FedBCD)的分布式特征协同学习框架,各参与方仅共享每个样本的单个值,而不是模型参数或原始数据,且能在不进行每轮迭代通信的情况下持续进行本地模型更新。
  • 实验与结论:通过理论分析了本地更新次数的影响,证明了当批量大小、样本大小和本地迭代次数选择适当时,该算法在 T 次迭代内执行 O(√T)轮通信,并达到 O(1 / √T)的精度。通过在多种任务和数据集上的实验评估,证明了该方法优于随机梯度下降(SGD)方法,且添加近端项可以进一步增强在 Q 值较大时的收敛性。

其中时间复杂度的T代表算法的迭代次数。

文章的 Introduction 部分主要介绍了协同学习的背景和相关问题

研究场景:现有协同学习框架中数据多按样本分布且共享相同属性,但存在一种跨组织协同学习问题,即各方共享相同用户但具有不同的特征集,例如同一城市的本地银行和零售公司可能在用户基础上有很大重叠,构建协同学习模型将对这些方有益。
现有问题:特征分区的协同学习问题在 DL 和 FL 设置中都有研究,但现有架构未充分解决通信问题,在数据地理分布、数据局部性和隐私至关重要的场景中,这些方法通常需要每轮迭代进行通信和计算,且为防止数据泄漏采用的隐私保护技术会增加昂贵的通信开销,此外,样本分区的 FL 中通过 FedAvg 进行多次本地更新可有效减少通信轮数,但在分布式特征中进行此类本地更新的可行性尚不清楚。
本文工作:提出了名为 Federated stochastic block coordinate descent(FedBCD)的协同学习框架,各方仅在每次通信时共享每个样本的单个值,而非模型参数或原始数据,且能持续进行本地模型更新而无需每轮迭代通信,所有原始数据和模型参数都保持本地,与集中训练的模型相比性能无损失,通过采用 FedBCD 可显著降低通信成本,并通过实验评估了 FedBCD 与其他替代协议的性能,还将算法应用于联邦迁移学习(FTL)以解决标记数据少和用户重叠不足的问题。

Problem Definition

在这里插入图片描述

这是一个典型的联合损失函数,包含了预测误差和正则化项。损失函数取决于所有数据方的参数 Θ,并且我们对所有样本 𝐷𝑖 进行了求和。

在这里插入图片描述

损失函数 f 通常依赖于各数据方的特征和标签,比如线性回归、逻辑回归等。其中右边括号里表示通过不同数据方的特征和参数的加权和,得到的预测值与标签之间的损失。这个公式的核心思想是,每个数据方 𝑘 有自己的特征 𝑥𝑖𝑘,但他们共享同一个标签 𝑦。各个数据方的特征通过加权求和来生成预测值。

在这里插入图片描述

𝑔𝑘(Θ;𝑆):表示相对于参数 𝜃𝑘 的随机梯度(stochastic gradient),通过对小批量数据 𝑆⊆[𝑁] 进行求导得到。 梯度计算通过以下步骤进行:

  • 定义 𝐻𝑖𝑘=𝑥𝑖𝑘𝜃𝑘,表示样本特征与参数的加权和。
  • 公式(3)这表示对损失函数 𝑓 和正则化项 𝛾 分别对参数 𝜃𝑘 求导,得到的梯度。
  • 计算局部梯度 ∇𝑓(Θ;𝑆),即公式(4),这是相对于特征的梯度。
  • 将梯度转化为全局损失函数的梯度,公式(5)通过对局部梯度求和,得到整体的梯度更新方向。
  • 公式(4)的意思是,我们对样本 𝑖 的损失函数进行求导,得到关于特征 𝑥𝑖𝑘 的梯度,然后对所有样本进行平均。
  • 公式(5)- 全局梯度计算: 在计算了局部梯度后,各数据方将其本地的梯度发送给一个中央服务器,该服务器汇总所有数据方的信息,计算全局的梯度

在这里插入图片描述

为了保证各数据方可以不共享原始数据而协同计算,需要定义一种信息共享机制,

公式(6)定义了从其他数据方收集的信息: 𝐻𝑆𝑘𝑞={𝐻𝑞𝑘(𝜃𝑞,𝑆𝑞)}𝑞≠𝑘 即从其他数据方收集的梯度信息。 通过公式(7)和(8),我们将各数据方的局部信息进行汇总,得到全局梯度。最后,公式(9)给出了随机梯度下降的更新规则: 𝜃𝑘←𝜃𝑘−𝜂𝑔𝑘(𝐻1,…,𝐾,𝜃𝑘;𝑆) 其中 𝜂 是学习率,𝑔𝑘 是基于所有数据方信息的梯度,参数 𝜃𝑘 被更新。

在这里插入图片描述

FedSGD算法详细解释(中文) 这个算法展示了如何在多个参与方(parties)上实现联邦随机梯度下降(FedSGD),每个参与方可以拥有自己的一部分数据,并通过交换局部信息协同训练模型,而不需要直接共享原始数据。以下是对算法每个步骤的详细解释:

输入参数和输出: • 输入:学习率 𝜂 (即每次更新模型时,参数改变的步长大小)。 • 输出:模型参数 𝜃1,𝜃2,…,𝜃𝐾(每个参与方 𝑘 的模型参数)。

初始化: • 每个参与方 𝑘=1,2,…,𝐾 初始化各自的模型参数 𝜃𝑘。

主要步骤

  1. 外层循环:每次迭代 𝑗=1,2,… 在每次全局迭代中,进行以下操作:

  2. 随机采样: 随机抽取一个样本子集 𝑆⊂[𝑁],这里的 𝑁 代表所有数据样本的总数。

  3. 交换过程 Exchange({1,2,…,𝐾}): • 该步骤描述了多个参与方之间的信息交换过程。具体的交换步骤在 Exchange(U) 子程序中详细定义。

    • Exchange(U) 子程序 Exchange(U) 函数定义了信息交换的规则,主要取决于公式(2)是否成立:
    • 若公式(2)成立: 这一步表示某些条件成立时(例如特定模型参数或特征计算的满足条件),参与方将执行以下操作: 1.1. 并行计算 𝐻𝑘: • 每个参与方 𝑘∈𝑈 且 𝑘≠𝐾 并行计算自己的 𝐻𝑘,并将其发送给参与方 𝐾。 • 符号解释: • 𝐻𝑘:表示数据方 𝑘 的局部信息(例如局部的特征加权和或梯度等)。 1.2. 数据方 𝐾 汇总 𝐻𝑘: • 数据方 𝐾 汇总所有从其他参与方接收到的 𝐻𝑘,并将汇总后的 𝐻𝐾 发送给所有参与方。
      1. 若公式(2)不成立: 如果公式(2)未成立,则每个参与方直接执行以下操作: 2.1. 并行计算 𝐻𝑘𝑞: • 每个参与方 𝑘 并行计算所有 𝐻𝑘𝑞 (即对于每个其他参与方 𝑞,计算其需要的信息),并将这些信息发送给其他参与方 𝑞。

    符号解释 为了便于理解算法中的各个符号,以下是对主要符号的详细解释: • 𝐾:参与方的数量,即有 𝐾 个不同的数据方(例如不同的数据源)。 • 𝜂:学习率,控制模型参数更新的步长。 • 𝜃𝑘:数据方 𝑘 的模型参数。每个数据方有各自的模型参数,但这些参数通过协作来一起优化。 • 𝑔𝑘:表示数据方 𝑘 根据公式(7)计算的梯度。公式(7)定义了如何基于当前模型参数和数据计算损失函数的梯度。 • 𝐻𝑘:参与方 𝑘 的局部信息,这个信息可以是特定的特征加权和,或者是梯度信息,供其他参与方使用。 • 𝑆⊂[𝑁]:表示从所有数据样本中随机抽取的一个子集,用于计算模型参数的更新。 • 𝐻𝑘𝑞:表示数据方 𝑘 为数据方 𝑞 计算并发送的信息,用于协同训练。

在这里插入图片描述

而作者提出的算法
在这里插入图片描述

Algorithm 2: FedBCD-p (并行联邦随机块坐标下降)

1. 输入与输出:
  • 输入:学习率 η。
  • 输出:模型参数 θ1,θ2,…,θK(每个参与方的模型参数)。
2. 初始化:
  • 每个参与方 k=1,2,…,K初始化它们的模型参数 θk。
3. 外层迭代:
  • 在每次外部迭代 l=1,2,… 中,进行以下步骤。
4. 随机抽样小批量数据:
  • 随机采样一个小批量数据集 S⊂D,其中 D 是数据集。
5. 执行信息交换:
  • 调用 Exchange(\{1, 2, ..., K\}) 函数,用于参与方之间的信息交换(如参数或者模型信息的交换)。
6. 并行更新:
  • 对于每个参与方 k∈[N](即每个参与方都有自己的数据和模型),在本地并行进行以下步骤:

    1. 局部迭代:

      • 对于每个局部迭代 j=1,2,…,Q,执行以下步骤。
      1. 计算梯度:

        • 参与方 k计算基于其局部数据的梯度 gk(H−k,θk;S)。这里的 H−k 表示其他参与方的模型信息(也就是除 k 自己之外的其他参数)。
      2. 更新模型参数:

        • 参与方 k使用梯度 gkg_kgk 更新其模型参数: θk←θk−ηgk(H−k,θk; 是学习率,决定参数更新的步长。

Algorithm 3: Sequential FedBCD(顺序联邦随机块坐标下降)

1. 输入与输出:
  • 输入:学习率 η。
  • 输出:模型参数 θ1,θ2,…,θK(每个参与方的模型参数)。
2. 初始化:
  • 每个参与方 k=1,2,…, 初始化各自的模型参数 θk。
3. 执行信息交换:
  • 调用 Exchange(\{1, 2, ..., K\}) 函数,进行初始的信息交换。
4. 外层迭代:
  • 在每次外部迭代 l=1,2,… 中,进行以下步骤。
5. 随机抽样小批量数据:
  • 随机采样一个小批量数据集 S⊂D,其中 D 是数据集。
6. 顺序更新:
  • 对于每个参与方 k=1,2,…,K,顺序执行以下步骤(即参与方一个接一个地进行更新,而不是并行地):

    1. 局部迭代:

      • 对于每个局部迭代 j=1,2,…,Q,执行以下步骤。
      1. 计算梯度:

        • 参与方 k 计算其局部数据的梯度 gk,具体计算方式和算法2相同。
      2. 更新模型参数:

        • 参与方 k使用梯度 gk 更新其模型参数: θk←θk−ηgk(H−k,θk;S)其中 η 是学习率,决定参数更新的步长。
7. 再次交换:
  • 每次外层迭代后,再次调用 Exchange(\{k, K\}) 进行参数交换或信息同步。

安全性分析

在这里插入图片描述

这个公式实际上是典型的梯度下降更新公式,它表明每个节点 𝑘 在每一轮迭代时,会根据自身的数据样本 𝑆𝑘 计算梯度 𝑔(𝐻(𝑥𝑖,y𝑗)),并根据这个梯度和学习率 𝜂 对权重进行更新。学习率控制了更新的步长,样本集中的每个样本 𝑥𝑖𝑗 对更新有不同的贡献,梯度计算也可能会带入某种正则化或者惩罚项 𝜆𝑖𝑗。 公式 (11) 是整个联邦学习框架的核心,它决定了在多轮迭代中,模型如何基于各个参与方的数据不断更新权重。

在这里插入图片描述

图(a)和图(b)解析 • 图(a) 展示了一个典型的2方联邦学习框架。在这个框架中,两个参与方 𝜃1 和 𝜃2 通过共享中间结果(而非直接共享数据)进行模型的更新。红色和蓝色的圆点分别表示每个参与方的数据样本,通过这些样本生成的中间结果被用于联合更新模型。整个过程在保证各方数据隐私的前提下进行。 • 图(b) 展示了算法FedBCD的流程图,其中左边是FedBCD-sequential,表示顺序执行的算法,右边是FedBCD-P,表示并行执行的算法。它们分别对应了不同的更新策略,FedBCD-sequential按顺序执行每个参与方的更新,而FedBCD-P是并行执行。

定理 1 提到了一个2方联邦学习的安全性假设。定理的核心观点是:在特征维度 𝐾≥2 的情况下,FedBCD算法可以确保参与方之间的数据安全,不会被对方学习到。

Assumptions(假设)解析

这里列出了关于算法收敛性的几个基本假设:

  • 假设 A1: Lipschitz 梯度:假设损失函数的梯度满足Lipschitz条件。这个条件保证了梯度变化的幅度不会太大,即有界的梯度。这对于算法的稳定性和收敛性分析至关重要。

    • 公式中的 Li表示Lipschitz常数,描述了梯度的“平滑性”。
    • ∇L(θ)是目标函数的梯度。
  • 假设 A2: Uniform Sampling:假设数据被均匀分成若干mini-batches,每次迭代从不同的batch中抽样进行训练。这种假设保证了训练过程的随机性,也提高了模型的泛化能力。

    在这里插入图片描述

定理 2 解析

定理 2 是在假设A1和A2的基础上,给出了算法的收敛性分析:

  • 当步长 η\etaη 满足一定条件时,算法在每轮迭代中的平均梯度范数有界于某个上限。公式(13)的左侧给出了平均梯度范数的上界,而右侧的式子则包含了多个与数据、特征维度、噪声相关的参数。
  • Remark 1 指出,寻找局部随机梯度的无偏估计器并不容易,这是因为每次同步步骤后,节点要执行确定性步骤。
  • Remark 2Remark 3 则分别讨论了算法在不同条件下的收敛速度。
  • Remark 4 提到,算法的收敛速度与参与方的数量 K 有关,当 K 增大时,收敛速度会受到一定影响。

在这里插入图片描述

公式 (13) 给出了算法收敛速度的上界,分析了随着迭代轮数 𝑇 增加,模型在全局最优解 Θ⋆ 附近收敛的速度。 变量解释: • 𝐸[∥∇𝐿(Θ𝑟)∥2] 表示第 𝑟 轮迭代的损失函数梯度的期望值。 • 𝜂 是学习率。 • 𝐿(Θ0) 是初始权重下的损失值, 𝐿(Θ⋆) 是最优权重下的损失值。 • 𝐿𝑘 是梯度的Lipschitz常数(即平滑性参数)。 • 𝜎𝑘 和 𝜎 分别是节点 𝑘 和全局的噪声项。 公式解析: 这个公式描述了随着迭代次数的增加,模型的梯度将逐渐趋于 0(即收敛)。它告诉我们当学习率 𝜂 满足一定条件时,联邦学习的损失函数会在 𝑇 轮迭代后逐渐逼近最优解。这个收敛速度是通过损失函数的初始值、最优值以及每个节点的噪声和梯度变化来控制的。

公式 (14) 是公式 (13) 中一部分的进一步展开,用来说明噪声和梯度平滑性对收敛性的影响。 2𝜂(𝐾+3)𝑄2∑𝑘=1𝐾𝐿𝑘2𝜎𝑘2𝑆+2𝐾𝜎2𝑆 公式解析: • 第一项 2𝜂(𝐾+3)𝑄2∑𝑘=1𝐾𝐿𝑘2𝜎𝑘2𝑆 代表了各节点的梯度平滑性 𝐿𝑘 和噪声 𝜎𝑘 对收敛性的影响。这一项随着噪声和梯度平滑性的增加而增加,也意味着噪声较大的情况下收敛速度会降低。 • 第二项 2𝐾𝜎2𝑆 表示全局噪声 𝜎2 对模型整体收敛速度的影响。噪声越大,收敛越慢。 联系: 公式 (13) 和 (14) 是同一个推导过程的一部分。公式 (13) 提供了总的收敛上界,公式 (14) 则将其中的噪声和梯度平滑性部分详细展开,说明了它们对收敛性的具体影响。

Experiments

在这里插入图片描述

图 2: 比较 MIMIC-III 数据集中的 AUC (左) 和训练损失 (右) 随着本地迭代次数变化的表现

图表分为四个部分,展示了不同算法在不同通信轮次和迭代次数下的表现。

(a) MIMIC-LR 数据集中的 AUC 对比:
  • AUC 曲线对比展示了 FedSGD、FedBCD-p 和 FedBCD-s 三种算法在不同本地迭代次数 Q下的表现。
  • 随着通信轮次增加,AUC 值逐渐提升。FedBCD 算法在 Q=50 时表现最好。
(b) MIMIC-LR 数据集中的训练损失对比:
  • 训练损失 随通信轮次减少,但不同算法和迭代次数的收敛速度不同。
  • FedBCD-s 的收敛速度较慢,FedBCD-p 的损失下降较快,特别是随着 Q 增加。
© MNIST-CNN 数据集中的 AUC 对比:
  • 类似的,FedBCD-p 和 FedBCD-s 在不同通信轮次的表现被展示。随着本地迭代次数 Q 增加,AUC 曲线迅速上升并且趋于收敛,FedBCD-p 收敛较快。
(d) MNIST-CNN 数据集中的训练损失对比:
  • 训练损失曲线表明,FedBCD-p 算法在 Q=50时损失降得最快,FedBCD-s 次之。

表 1: 达到目标 AUC-ROC 所需的通信轮次对比

表格展示了不同算法和不同本地迭代次数 QQQ 在 MIMIC-LR 和 MNIST-CNN 数据集上达到指定 AUC-ROC 的通信轮次。

  • 对于 MIMIC-LR 数据集,FedSGD 在 Q=1时需要 334 轮,FedBCD-p 在 Q=5 时需要 71 轮,FedBCD-s 在相同 Q 下需要 407 轮。

  • 对于 MNIST-CNN 数据集,FedSGD 需要 46 轮,FedBCD-p 在 Q=5 时只需 16 轮,而 FedBCD-s 则需 17 轮。

  • 这表明增加本地迭代次数 Q 能显著减少通信轮次。

  • FedBCD-p vs FedBCD-s: 两种算法在通信效率上的表现进行了对比。FedBCD-s 尽管收敛时间较慢,但通过增加本地迭代次数 Q,可以减少通信轮次。这表明,合理增加本地迭代可以减少通信开销并提高并行性。

总的来说,这张图片通过图表和表格展示了不同算法和迭代次数在 MIMIC-LR 和 MNIST-CNN 数据集上的表现,重点分析了在增加本地迭代次数时,通信轮次的减少以及不同算法的收敛速度。

在这里插入图片描述

实验部分的 Figure3 和 4 主要探讨了局部迭代次数 Q 对 FedBCD - p 算法在 NUS - WIDE 数据集上收敛速度的影响,具体内容如下: Figure3: 实验设置:在 NUS - WIDE 数据集上评估 FedBCD - p 算法在不同 Q 值下的性能,Q 的取值范围较大。 实验结果:当 Q = 15 时,FedBCD - p 算法达到了最佳的 AUC(Area Under Curve),且所需的通信轮数最少。对于每个目标 AUC,都存在一个最优的 Q 值。这表明正如定理 2 所建议的,需要仔细选择 Q 以实现最佳的通信效率。 Figure4(a): 实验目的:进一步研究收敛速度与局部迭代 Q 之间的关系。 实验结果:展示了对于三个目标 AUC,通信轮数与不同 Q 值之间的关系。验证了 Q 的选择对算法收敛的重要性,过大或过小的 Q 值都可能导致算法无法收敛到最优解。 Figure4(b): 实验设置:当 Q 取值非常大(25、50 和 100)时,观察 FedBCD - p 算法的性能,并与添加了近端项的 FedPBCD - p 算法进行比较。 实验结果:当 Q 过大时,FedBCD - p 无法收敛到 83.7%的 AUC,而 FedPBCD - p 收敛更快,并且能够达到比相应的 FedBCD - p 更高的测试 AUC。这表明在局部迭代较大时,添加近端项可以改善算法的收敛性能。 综上所述,这些实验结果表明 Q 的选择对 FedBCD - p 算法的性能至关重要,同时也验证了通过添加近端项可以在 Q 较大时增强算法的收敛性

在这里插入图片描述

在这里插入图片描述

Figure 5 解析: 目的:展示在 MIMIC - III 数据集上,随着局部迭代次数(用 Q 表示)和参与方数量(用 K 表示)的变化,AUC 的比较情况,以验证当参与方数量增加时,所提出的方法的性能。 实验设置: 数据集:使用 MIMIC - III 数据集的相关数据进行实验。 任务:进行 MIMIC - LR 任务。 参与方数量设置:将参与方的数量分别增加到五个和十七个,并与两个参与方的情况进行对比。 数据划分:按照临床变量划分数据,每个参与方拥有相同变量的所有相关特征。 学习率策略:根据定理 2,采用的衰减学习率策略。 结果分析: 从图中可以看出,当增加局部迭代次数 Q 时,FedBCD - p 和 FedBCD - s 在不同参与方数量下的性能表现。 对于 FedBCD - p,当参与方数量为两个时,随着 Q 从 5 增加到 50,AUC 的性能相对稳定;当参与方数量增加到五个和十七个时,FedBCD - p 的性能比两个参与方的情况稍微慢一些,但总体趋势相似。 对于 FedBCD - s,也呈现出类似的趋势,即随着 Q 的增加和参与方数量的变化,AUC 的性能相对稳定,但在参与方数量增加时,性能略有下降。 总体而言,该图表明所提出的方法在参与方数量增加的情况下仍然能够保持较好的性能,并且验证了理论分析中关于参与方数量对算法性能影响较小的结论。

Table 2 解析: 目的:比较 FedSGD 和 FedBCD - p 在达到不同目标 AUC(70%、75%和 80%)时的通信轮数和训练时间,以展示 FedBCD - p 算法在使用同态加密时的效率优势。 实验设置: 数据集:在 Credit - FTL 任务上进行实验。 算法:对比 FedSGD 和 FedBCD - p 两种算法。 配置:集成 FedBCD - p 算法到当前的 FTL 实现中,在两台机器上进行模拟实验,机器配置为 Intel Xeon Gold 模型,具有 20 个核心、80G 内存和 1T 硬盘。 结果分析: 对于目标 AUC 为 70%,FedSGD 需要 17 轮通信和 11.34 分钟的通信时间,总训练时间为 22.67 分钟;而 FedBCD - p 在 Q = 5 时需要 4 轮通信、2.94 分钟的通信时间和 13.40 分钟的计算时间,总训练时间为 16.34 分钟;在 Q = 10 时需要 2 轮通信、2.74 分钟的通信时间和 10.87 分钟的计算时间,总训练时间为 13.61 分钟。 对于目标 AUC 为 75%,FedSGD 需要 30 轮通信和 20.10 分钟的通信时间,总训练时间为 40.60 分钟;而 FedBCD - p 在 Q = 5 时需要 8 轮通信、5.57 分钟的通信时间和 26.78 分钟的计算时间,总训练时间为 32.35 分钟;在 Q = 10 时需要 4 轮通信、2.93 分钟的通信时间和 23.73 分钟的计算时间,总训练时间为 26.66 分钟。 对于目标 AUC 为 80%,FedSGD 需要 46 轮通信和 30.69 分钟的通信时间,总训练时间为 62.89 分钟;而 FedBCD - p 在 Q = 5 时需要 13 轮通信、9.05 分钟的通信时间和 43.52 分钟的计算时间,总训练时间为 52.57 分钟;在 Q = 10 时需要 7 轮通信、5.12 分钟的通信时间和 41.53 分钟的计算时间,总训练时间为 46.65 分钟。 总体来看,FedBCD - p 在较大的 Q 值下,通信轮数和总训练时间都明显少于 FedSGD,同时计算时间仅有略微增加,并且从 FedSGD 到 Q = 10,通信轮数减少了超过 70%。这表明 FedBCD - p 算法在使用同态加密的情况下,能够有效地减少通信开销,提高训练效率。

  • 总结: 提出了一种基于块坐标梯度下降的新的协作学习框架,用于分布式特征,其中各方在通信前执行多次局部梯度更新。 该方法显著减少了通信轮数和总通信开销。 从理论上证明了该算法在衰减学习率和适当选择 Q 的情况下实现了全局收敛。 通过广泛的实验评估验证了该方法的有效性。 还表明添加近端项可以进一步提高 Q 值较大时的收敛性。
    通信轮数减少了超过 70%。这表明 FedBCD - p 算法在使用同态加密的情况下,能够有效地减少通信开销,提高训练效率。

结论与未来工作

  • 结论: 提出了一种基于块坐标梯度下降的新的协作学习框架,用于分布式特征,其中各方在通信前执行多次局部梯度更新。 该方法显著减少了通信轮数和总通信开销。 从理论上证明了该算法在衰减学习率和适当选择 Q 的情况下实现了全局收敛。 通过广泛的实验评估验证了该方法的有效性。 还表明添加近端项可以进一步提高 Q 值较大时的收敛性。
  • 未来工作: 可能包括研究和进一步提高这种方法在更复杂和异步协作系统中的通信效率。 总的来说,这部分内容对研究工作进行了全面的总结,并为未来的研究方向提供了一些建议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值