对FedAvg中模型聚合过程的理解

Cyril_KI

已于 2023-02-12 11:11:51 修改

阅读量5.9k

点赞数 17

分类专栏： Federated Learning Papers

于 2022-02-17 21:18:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cyril_KI/article/details/122991420

版权

联邦学习 FedAvg 模型聚合客户端更新通信成本

关键词由CSDN通过智能技术生成

Papers 同时被 2 个专栏收录

47 篇文章

订阅专栏

Federated Learning

18 篇文章

订阅专栏

目录

问题
聚合

问题

联邦学习原始论文中给出的FedAvg的算法框架为：
在这里插入图片描述
参数介绍： $K$ 表示客户端的个数， $B$ 表示每一次本地更新时的数据量， $E$ 表示本地更新的次数， $\eta$ 表示学习率。

首先是服务器执行以下步骤：

初始化参数。
对每一轮通信来说：首先计算出 $\cdot K, 1)$ ，然后随机选择m个客户端，对这m个客户端做如下操作（所有客户端并行执行）：更新本地的 $w_t^{k}$ 得到 $w_{t+1}^{k}$ 。所有客户端更新结束后，将 $w_{t+1}^{k}$ 传到服务器，服务器整合所有 $w_{t+1}^{k}$ 得到最新的全局参数 $w_{t+1}$ 。

对每一个本地客户端来说，要做的就是更新本地参数，具体来讲：

把自己的数据集按照参数B分成若干个块，每一块大小都为B。
对每一块数据，需要进行E轮更新：算出该块数据损失的梯度，然后进行梯度下降更新，得到新的本地 $w$ 。
更新完后 $w$ 将被传送到中央服务器，服务器整合所有客户端计算出的 $w$ ，得到最新的全局模型参数 $w_{t+1}$
客户端收到服务器发送的最新全局参数模型参数，进行下一次更新。

我们仔细观察server的最后一步：
$w_{t+1}=\sum_{k=1}^{K}\frac{n_k}{n}w_{t+1}^k$
也就是说，虽然我们只是对 $m$ 个客户端进行本地训练更新得到了其对应的 $w_{t+1}^k$ ，但最终我们却对所有 $K$ 个客户端进行了聚合。

聚合

那么针对聚合，就有以下两种情况。

1. 聚合所有客户端

服务器端每次将新的全局模型发送给全部客户端，并且聚合全部客户端的模型参数。如果客户端未被选中，那么一轮通信结束后，该客户端的模型为一轮通信开始时从服务器获得的初始模型。

设当前全局模型为 $w_t$ ，服务器选中了 $m$ 个客户端（集合 $V$ ）， $m$ 个客户端本地更新完毕后，服务器端的聚合公式为：
$w_{t+1}=\sum_{k \in V}\frac{n_k}{n}w_{t+1}^k+\sum_{k\notin V}\frac{n_k}{n}w_t$
也就是说，每一次聚合时服务器端都将所有客户端的模型考虑在内。

2. 仅聚合被选中的客户端

服务器每次只是将当前新的参数传递给被选中的模型，并且只是聚合被选中客户端的模型参数。

设当前全局模型为 $w_t$ ，服务器选中了 $m$ 个客户端（集合 $V$ ），然后将 $w_t$ 只发送给这 $m$ 个客户端。 $m$ 个客户端训练完毕后，服务器端的聚合公式为：
$w_{t+1}=\sum_{k \in V}\frac{n_k}{n}w_{t+1}^k$

3. 选择

虽然原始论文中对所有 $K$ 个客户端都进行了聚合，但在真正实现时，感觉用第二种会更好一点，因为如果客户端数量很庞大，每一次通信都会有不小的代价，用第二种会明显降低通信成本。

博客等级

码龄5年

人工智能领域优质创作者

420
原创

5974
点赞

2万+
收藏

12万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

PyEMD中的残余量分析
steven_jobshui: -0.04667,0.06954,-0.01583,-0.06405,-0.04859,-0.00053 0.08481,0.08934,0.07897,0.05709,0.02793,-0.00558 -0.23299,-0.23273,-0.22719,-0.21650,-0.20091,-0.18069 1.29644,1.29409,1.29049,1.28568,1.27972,1.27267 彻底分解后给我返回四个，可以看到第四个很大，这个是残差吗
PyEMD中的残余量分析
steven_jobshui: -0.04667,0.06954,-0.01583,-0.06405,-0.04859,-0.00053 0.08481,0.08934,0.07897,0.05709,0.02793,-0.00558 -0.23299,-0.23273,-0.22719,-0.21650,-0.20091,-0.18069 1.29644,1.29409,1.29049,1.28568,1.27972,1.27267 彻底分解后给我返回四个，可以看到第四个很大，这个是残差吗
PyEMD中的残余量分析
steven_jobshui: 使用的EMD
PyEMD中的残余量分析
steven_jobshui: 您好，我是用EMD_signal的1.6.4版本中彻底分解会返回残差项吗
PyTorch搭建GNN-LSTM和LSTM-GNN模型实现多变量输入多变量输出时间序列预测
hjskgn123: 你好博主，我的研究方向是无线传感器网络中的关键节点检测，和识别异常节点，可以用上述方法吗

大家在看

Java 后台开发中 CPU 飙高原因及解决方案深度解析

最新文章

目录

展开全部

收起

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Cyril_KI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。