联邦学习（电子工业出版社）——读书笔记（3）

最新推荐文章于 2024-02-01 15:15:21 发布

超威橘猫

最新推荐文章于 2024-02-01 15:15:21 发布

阅读量762

点赞数

分类专栏：联邦学习（电子工业出版社）读书笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/IEEE802_11/article/details/109342057

版权

联邦学习（电子工业出版社）读书笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

第四章横向联邦学习

横向联邦学习的定义

横向联邦学习也称为按样本划分的联邦学习，可以应用于联邦学习的各个参与方的数据集有相同的特征空间和不同的样本空间的场景，类似于在表格视图中对数据进行水平划分的情况。

横向联邦学习中通常假设只有服务器才能使得数据参与方的隐私安全受到威胁。

文献[35]的作者提出了一种适用于模型参数聚合的加法同态加密方法，能够抵御联邦学习系统里的中央服务器窃取模型信息或者数据隐私。

横向联邦学习架构

客户-服务器架构

在这种系统中，具有同样数据结构的K个参与方（也叫作客户或用户）在服务器（也叫做参数服务器或者聚合服务器）的帮助下，协作地训练一个机器学习模型。

参与方将梯度信息发送给服务器，服务器将收到的梯度信息进行聚合（例如，计算加权平均），再将聚合的梯度信息发送给参与方。我们称这种方法为梯度平均。

参与方在本地计算模型参数，并将它们发送至服务器。服务器对收到的模型参数进行聚合（例如，计算加权平均），再将聚合的模型参数发送给参与方。我们称这种方法为模型平均。

表4-1 模型平均和梯度平均的比较

方法	优点	缺点
梯度平均	准确的梯度信息有保证的收敛性	加重通信负担需要可靠连接
模型平均	不受SGD限制可以容忍更新缺失不频繁的同步	不保证收敛性性能损失

在协同学习过程中，若有一个恶意的参与方训练生成对抗网络（GAN），将可能导致系统容易遭受攻击。

对等网络架构

在该框架下，不存在中央服务器或者协调方。在这种架构中，横向联邦学习系统的K个参与方也被称为训练方或分布式训练方。每一个训练方负责只使用本地数据来训练同一个机器学习模型（如DNN模型）。此外，训练方们使用安全链路在相互之间传输模型参数信息。为了保证任意两方之间的通信安全，需要使用例如基于公共密钥的加密方法等安全措施。

循环传输

在循环传输模式中，训练方们被组织成一条链。第一个训练方（即链首）将当前模型参数发送给它的下一个训练方。该训练方接收来自上游的模型参数后，将使用来自本地数据集的小批量数据更新收到的模型参数，直到链尾再将模型传输给链首，然后持续重复。

随机传输

与循环传输相似，模型也是一传一，但是训练方选择的发送对象是随机选择的，这一方法也叫做Gossip学习。

全局模型评估

模型性能可以表现为精确度（precision）、准确度（accuracy）和召回率（recall）等。

对于对等网络架构，由于不存在中央协调方或者中央服务器，要得到全局模型性能将会更为复杂。一种可能的方式是选取某一个参与方来充当一个临时的协调方。

然而，假如我们在联邦模型训练期间使用这种方法，将会给临时协调方造成过多负担，而这可能不适合移动型训练方或者资源有限的IoT设备（例如，电池电量受限的IoT设备）。

联邦平均算法介绍

联邦优化（一些挑战）

数据集的非独立同分布：由不同参与方拥有的数据可能有着完全不同的分布，即我们不能对分布式数据集进行IID假设。
不平衡的数据量：对于一个数据中心的分布式优化，可能将数据均匀地分配到各工作机器中。然而在现实环境中，联邦学习的不同参与方通常拥有不同规模的训练数据集。
数据很大的参与方
慢速且不稳定的通信连接

在联邦学习中，相对于整个数据集的规模来说，任何单一的在某一台设备上的数据集都是相对较小的，而现代智能手机都拥有相对较快的处理器。因此，相对许多模型而言，计算代价相比通信代价是微乎其微的。

联邦平均算法

对于一般的非凸目标函数，在模型参数空间中的模型平均可能会产生一个很差的联邦模型，甚至可能导致模型不能收敛。

Dropout训练方法的成功经验为联邦模型平均方法提供了一些直观的经验解释。Dropout训练可以被理解为在不同的共享模型参数的架构中的平均模型。

安全的联邦平均算法

我们可以使用加法同态加密，具体如Pailliar算法，或者基于带错误学习的加密方法，来加强联邦平均算法的安全属性。

AHE是一种半同态加密算法，支持加法和标量乘法操作（即加法同态和乘法同态）。

由于AHE拥有这两个很适用的特性，可以直接将AHE方法用于联邦平均算法，确保相对于协作方或者服务器的安全性。

诸如AHE这类方法，可以很容易地加入原始的联邦平均算法中，以提供安全的联邦学习，其中的同态加密算法能够抵御选择明文攻击。

加密操作和解密操作将会提高计算的复杂度，并且密文的传输也会增加额外的通信开销。AHE的另一个缺点是，为了评估非线性函数，需要使用多项式近似。

联邦平均算法的改进

通信效率提升

当存在大量参与方时，从参与方上传模型参数至协调方将成为联邦学习的瓶颈。为了降低通信开销，研究者提出了一些改善通信效率的方法。

压缩的模型参数更新

参与方正常计算模型更新，之后进行本地压缩。压缩的模型参数更新通常是真正更新的无偏估值，这意味着它们在平均之后是相同的。

结构化的模型参数更新

首先，通过去除冗余来删除DNN内的某些连接，只保留最重要的连接部分。其次，量化权重，从而使得更多连接共享同一个权重值，只保留有效权重。最后，使用哈夫曼编码以利用又凶啊权重的偏倚分布。

参与方选择

在文献[13]中, 参与方选择的方法被推荐用来降低联邦学习系统的通信开销和每一轮全局联邦模型训练所需的时间。然而，文献13并未提出任何用于参与选择的具体方法。文献[235]的作者介绍了一种用于参与方选择的方法，共包含两个步骤。第一是资源检查，即向随机筛选出来的参与方发送资源查询消息,询问它们的本地资源以及与训练任务相关的数据规模。第二步是协调方使用这些信息估计每一个参与方计算本地模型更新所需的时间，以及上传更新所需的时间。之后，协调方将基于这些估计决定选择哪一个参与方。在给定一个全局迭代轮次所需的具体时间预算的情况下，协调方希望选择尽可能多的参与方。

挑战与展望

第一个主要挑战是在横向联邦学习系统里，我们无法查看或者检查分布式的训练数据。在实际情况中，由于并未提前收集任何训练数据，我们几乎不可能为DNN模型选择正确的超参数并设定优化器。
第二个主要挑战是如何有效地激励公司和机构参与到横向联邦学习的系统中来。
第三个主要挑战是如何防止参与方的欺骗行为。
最后，我们还需要掌握训练过程的机制。例如，我们需要发掘新的方法来避免过拟合以及触发提前停止训练。另一个方向是如何管理拥有不同可靠度的参与方。

超威橘猫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
联邦学习（电子工业出版社）——读书笔记（3）

第四章横向联邦学习横向联邦学习的定义横向联邦学习也称为按样本划分的联邦学习，可以应用于联邦学习的各个参与方的数据集有相同的特征空间和不同的样本空间的场景，类似于在表格视图中对数据进行水平划分的情况。横向联邦学习中通常假设只有服务器才能使得数据参与方的隐私安全受到威胁。文献[35]的作者提出了一种适用于模型参数聚合的加法同态加密方法，能够抵御联邦学习系统里的中央服务器窃取模型信息或者数据隐私。横向联邦学习架构客户-服务器架构在这种系统中，具有同样数据结构的K个参与方（也叫作客户或
复制链接

扫一扫