Federated Learning: Strategies for Improving Communication Efficiency

最新推荐文章于 2024-08-26 07:21:08 发布

Zh1N1an

最新推荐文章于 2024-08-26 07:21:08 发布

阅读量428

点赞数

分类专栏：论文笔记联邦学习文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_42303403/article/details/129427881

版权

论文笔记同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

联邦学习

11 篇文章 1 订阅

订阅专栏

摘要
- 本文优化的是通信问题
- 联邦学习是一种机器学习设置，其目标是训练高质量的集中式模型，同时训练数据仍然分布在大量客户端上
简介
- 对于大型模型，由于多种因素，这一步很可能成为联邦学习的瓶颈。一个因素是互联网连接速度的不对称特性：上行链路通常比下行链路慢得多。
- 研究可以降低上行链路通信成本的方法。在本文中，我们研究了两种通用方法：
  - Structured updates 从受限空间学习更新，可以使用较少数量的变量进行参数化
  - Sketched updates 学习完整的模型更新，然后在发送到服务器之前对其进行压缩，压缩传输的网络参数或梯度，例如量化、随机旋转、子采样等。
- 问题描述
  - 联邦学习的目标是从存储在大量客户机上的数据中学习一个包含实矩阵 W∈R（d1×d2）的参数的模型。
  - 我们首先提供了联邦学习的一个简单的通信版本。在第 t ≥ 0 轮中，服务器将当前模型 Wt 分发给 nt 个客户端的子集 St。（模型分给St）
  - 这些客户端根据本地数据独立更新模型。设更新后的局部模型为 W1 t , W2 t , . . . , Wnt t , 所以客户端 i 的更新可以写成 Hi t := Wi t − W t , （for i ∈ St. St集合才是本次训练更新了的客户端）
  - 这些更新可以是在客户端计算的单个梯度，但通常是更复杂计算的结果，例如，对客户端本地数据集采取的随机梯度下降 (SGD) 的多个步骤。在任何情况下，每个选定的客户端都会将更新发送回服务器，其中全局更新是通过聚合所有客户端更新来计算的：
  - 服务器选择学习率ηt。为简单起见，我们选择ηt = 1。
  - 在第 4 节中，我们描述了神经网络的联邦学习，其中我们使用单独的二维矩阵 W 来表示每一层的参数。我们假设 W 得到右乘，即 d1 和 d2 分别代表输出和输入维度。请注意，全连接层的参数自然表示为二维矩阵。然而，卷积层的内核是形状为#input × width × height × #output 的 4D 张量。在这种情况下，W 从核重塑为 (#input × width × height) × #output 的形状。
  - 总结
    - 两种优化技术对收敛速度有轻微下降但是通信优化了两个数量级
    - 对更新进行structured random rotations（结构化随机旋转）的预处理，或许这个操作在SGD成本是巨大的，但是在联邦学习是忽略不计的
结构化更新
- 低秩方法优化
  - 低秩
    - 这个图片中，大部分的篇幅是水，除了水就只有一艘大船，而水和水是相似的（此时我们把水看做是单独的元素），所以如果没有船只有水，那么这幅图的信息量是很低的，以为我们可以理解有一个水的像素，其他的都是复制品。
    - 如果在这幅图中添加这样的一艘船，那么它的秩就会变大。
    - 简单总结，就是图片有比较突兀的成分，如上面的船只，就会增加图像的秩。
    - 对于现实中比较好的图片，往往秩比较低的，也就是图像比较规整，重点的突出点是有的，但是大部分像素是相似的；假如图片的秩很高，那结果就是图像杂乱无章，或者是噪声比较高。
    - 因此，在做图像处理时，可以通过降低秩来去除图片中的噪点
    - 相关或者相似–>秩序低；不相关或不相似–>秩序高。
    - 一个m*n的矩阵，如果秩很低（秩r远小于m,n），则它可以拆成一个m*r矩阵和一个r*n矩阵之积（类似于SVD分解）。后面这两个矩阵所占用的存储空间比原来的m*n矩阵小得多。
    - 秩越低表示数据冗余性越大，因为用很少几个基就可以表达所有数据了。相反，秩越大表示数据冗余性越小。
  - 将本地模型矩阵，拆成俩个矩阵
  - 但是fixing Bi t and training Ai t, as well as training both Ai t and Bi t; neither performed as well
  - 但是固定B训练A，或者两个矩阵一起训练，表现都非常不好
  - 我们这样解释
    - 我们可以把Bi t解释为投影矩阵，Ai t解释为重构矩阵。
    - 固定Ai t并优化Bi t就像问“给定一个给定的随机重建，什么样的投影能恢复最多的信息?”
    - 就是固定A让B恢复原矩阵的尽量最多的信息
    - 但是也不能随机去固定A矩阵，这样我们很难找到最好的重建矩阵 B
  - k<=d1的，所以节省了d1/k倍（后面的25%）开销
- 随机掩码优化
  - 掩码项置零，只更新非掩码项（非零梯度），并将随机种子（决定了掩码）一起发送
草图更新
- 在本地训练完整的H，然后发送到服务器以前有损压缩进行近似或编码，在服务器再解码。而完成这一份“草图”可以有很多工具
- 子采样：类似于随机掩码优化用随机的子集H-hat进行聚合更新，但使得采样更新的平均值是真实平均值的无偏估计量
- 概率量化：
  - 百度安全验证
  - 联邦学习中基于概率的数值量化 - 知乎
  - 如何解决联邦学习中的通信开销问题？-阿里云开发者社区
  - 百度安全验证
  - （阅读笔记）Federated Learning: Strategies for Improving Communication Efficiency_你看见的我的博客-CSDN博客
  - 论文笔记：联邦学习——Federated Learning: Strategies for Improving Communication Efficiency_liuzeyao_Newton的博客-CSDN博客
  - Consider the update Hi t, h = (h1, . . . , hd1×d2 ) = vec(Hi t)（列向量化）, and let hmax = maxj (hj ), hmin = minj (hj ).
  - 〜h是h的无偏估计量
- Improving the quantization by structured random rotations(利用结构化随机旋转改进量化。):
  - 当尺度在不同维度上近似相等时，上述1位和多位量化方法工作得最好。
  - 当max = 1和min =−1，且大多数值为0时，1位量化会导致较大的误差。
    - 我们注意到，在量化之前对h应用随机旋转(将h乘以随机正交矩阵)解决了这个问题。这一说法在Suresh et al.(2017)中得到了理论上的支持。
    - 在这项工作中，它表明结构化随机旋转可以将量化误差降低O(d/ log d)，其中d是h的维数。
    - 当服务器聚合所有更新之前再进行反向旋转
实验
- 随机掩码>>>低秩
- 随机掩码>>>草图
- 草图中的概率量化并正交旋转的结果最棒
- 第五个实验
  - 这表明在联邦设置中一个重要实用的权衡：
  - 可以在每一轮中选择更多的客户，同时每个客户通信更少（例如，更aggressive的下采样），获得与使用更少客户端相同的准确性，但让每个客户端通信更多。当每个客户端都可用时，前者可能更好，但每个都有非常有限的上传带宽。