Evaluation of Federated Learning Aggregation Algorithms

一、Title

在这里插入图片描述

1.1前言:

普适计算促进了互联电子设备的集成,以通过适当的服务帮助我们。最近有两个主要的发展取得了显著的势头:更好地利用 资源和使用人工智能技术。具体来说,人们对工程应用中的机器学习方法的兴趣已经迅速增加。\这种模式似乎很好地适合普遍的环境。然而,到目前为止,联邦学习已经应用于特定的服务,并且在很大程度上仍然是概念性的。它需要在部分位于雾中的普遍服务上进行广泛的测试。在本文中,我们提出了在智能手机上的人类活动识别领域进行的实验,以评估现有的算法。

普适计算促进连接电子设备在我们的生活空间的整合,以协助我们的日常活动。我们已经被这样的提供许多服务的智能设备包围了。这些服务在今天仍然有限,但它们仍然在包括工业和医疗保健在内的许多领域提高了巨大的经济和社会期望。特别是,普适计算的进步有可能提供非侵入性服务,加强对老年人和患者的健康监测。最近,有一个强有力的运动,以更好地使用靠近设备的资源,以存储数据和运行服务[1]。**这种演化被称为雾计算或边缘计算。**今天,大多数普遍存在的应用程序都是基于云基础设施的。在实践中,云计算限制了可实现的服务的数量和类型,因为不可预测的延迟、缺乏安全、隐私问题,有时带宽不足或成本过高。边缘资源的使用使设想[2]的多样性和服务质量成为可能。

另一个重大变化是对基于人工智能的服务的需求。人们对工程应用中的机器学习(ML)方法的兴趣已经迅速增加。ML系统的目标是训练一种算法,通过识别可能隐藏在大量数据集中的模式,自动做出决策(预测、分类),这些数据集的确切性质是未知的,因此不能被明确地编程。对机器学习越来越关注源于不同的来源:高效的算法、大量数据的可用性,高性能计算的进步,这些技术的广泛的可访问性,以及令人印象深刻的成功由行业、学术界和研究社区,等领域的视觉、自然语言处理或决策。因此,今天对应用人工智能技术有越来越多的需求,这就不足为奇了。

处理这种演变是非常具有挑战性的。一方面,大多数普遍领域的工程师被用于建立动态现象的模型,并且并不精通数据密集型的方法。另一方面,大多数基于人工智能的解决方案都严重依赖于云基础设施,由于缺乏资源,无法轻易地在fog设备中实现。然而,谷歌最近提出了联邦学习(FL)[3,4,5],并应用了个性化的打字辅助。在设计中,联邦学习旨在通过防止在终端级别收集的数据通过网络发送,从而节省通信成本,并转发安全和隐私。它作为一种新的机器学习范式的使用,立即引起了人们的注意。这种新范式似乎很好地适合普遍的环境。然而,联邦学习在很大程度上仍然是概念性的,需要进行广泛的澄清和测试。

为了评估FL的兴趣,我们用文献中最近提出的很有前途的算法进行了一组实验。这些实验是在智能手机的人类活动识别(HAR)领域进行的。HAR是一种普遍的应用程序,特别适合于FL,因为活动往往具有通用的模式(例如,步行涉及任何人相同的运动序列),而具有高度特殊的特性(即,数据取决于人、设备和环境)。此外,收集到的数据是私有的,不应该被发送到网络。本文的组织结构如下。首先给出了联邦学习和HAR的背景,然后给出了任务和实验设置。最后讨论了实验结果。

二、summary(idea)

2.1研究背景:

联邦学习提出了一种分布式机器学习策略,可以对驻留在移动智能手机等终端设备上的分散数据进行训练。联邦学习非常符合雾计算的目标,因为数据和计算都分布在本地设备上。这显然可以解决与性能、隐私性和数据所有权相关的问题。如下图1所示,联邦学习依赖于一种分布式架构,它由位于类云设施中的服务器和许多被称为客户端的设备组成。客户端数量是可变的,可以是动态的;客户端可以出现和消失。
在这里插入图片描述
理论架构行为如下。首先,在服务器站点上生成一个随机的全局模型,例如一个卷积神经网络,并发送给客户端。
然后,选定的客户收集数据,并进行设备上的培训。经过一段预定义的时间后,由客户端构建的本地模型将被发送回服务器。
紧接着,服务器将这些模型聚合为一个新的全局模型,该模型再次发送给客户端,并重复该循环。还可以注意到,在理论上,新客户可以在任何时候加入,这可能会无限期地延长培训时间。

在这个新的范式模型中的一个关键点是模型的聚合。在与联邦学习相关的出版物中,聚合被实现为平均函数。我们称这种方法为FedAvg[3]。这意味着不同局部模型的权值被平均,以提供新的权值,从而提供一个新的模型。最近提出了新的聚合算法,包括FedPer[9],一种包含基础学习层和个性化迁移学习层的联邦学习算法,以及FedMA[10],一种联邦层学习方案,它包含了具有相似权重的节点的匹配和合并。
联邦学习已经在模拟数据上和仅在一些领域上进行了测试和验证,这就留下了许多悬而未决的问题。具体来说,我们认为数据的分布和异质性是一个需要更多的调查和测试的主要方面。在普遍的领域中,数据可能因主题、环境和条件的不同而非常不同。目前尚不清楚由不同受试者进行的设备上训练是否能在服务器级别上产生一个健壮、准确的模型。
关于FL的最先进的研究主要集中在解决计算机视觉问题[3,9,10],并使用结果作为一个开放的基准来比较不同的算法。在最先进的FL聚合算法中,FedMA算法、分层训练和匹配方案范式,显示出了最突出的能力
只有少数研究将FL应用于HAR域[12,13],但缺乏关于全局和局部模型在不同FL方法的泛化和个性化方面的性能的分析。
我们专注于利用机器学习技术的研究工作。关于分类模型,确实研究了大量基于可穿戴传感器处理HAR的技术。最常见的方法是处理数据流的窗口,以提取特征向量,进而用于提供分类器。因此,许多基于实例的分类器都被用来这样做。让我们引用贝叶斯网络、决策树、随机森林、神经网络和支持向量机[7]。由于人类活动可以被看作是一系列较小的子活动,序列模型,如条件随机场、隐马尔可夫模型或马尔可夫逻辑网络也已被应用。然而,今天,最流行和最有效的技术无疑是深度神经网络(如本文[14]所研究的)。
正如前面介绍的,机器学习高度依赖于数据集。深度学习更是如此。[6]进行的调查提供了大量以不同方式佩戴的智能手机获得的数据集。它清楚地强调了在任务、传感器、协议、时间窗等方面缺乏一致性。值得注意的是,一些数据集是非常不平衡的,因为类之间的活动分布非常不同。例如,在真实世界的数据集[8]中,“楼梯”活动代表了数据的22%的数据,而“跳跃”活动被限制为2%。在这种情况下,学习方法应该考虑类的不平衡问题。
基于所有这些原因,我们认为HAR是一个测试和更好地理解联邦学习的优秀领域。具体来说,我们欣赏不同数据集的可用性,具有良好性能的不同方法(准确性、时间等)。这可以用于比较、数据的不平衡性质,以及“自然”客户端的可用性:智能手机。

四、Experiment

4.1实验步骤

我们评估了FedAvg、FedPer和FedMa算法的性能,以及使用真实世界数据集[8]的集中训练方法,这是一个非常异构的数据集,紧密地代表了其他已知HAR数据集中的野外数据。真实世界的数据集包含由三星GalaxyS4和LGGWatchR获得的加速度计和陀螺仪时间序列数据,采样率为50Hz。数据收集自15名受试者,来自7种不同的设备/身体位置,包括8种活动,如表1所示。我们使用128个样本的窗口帧大小,6个通道重叠50%。为了尊重深度学习方法(特征应该学习而不是手工制作),除了信道z归一化外,没有应用任何预处理。数据集的最终大小为6.98GB。我们的实验是使用卷积神经网络(CNN)来比较联邦学习的结果与传统的深度学习集中训练。
我们的CNN模型有192个大小为1x16的卷积滤波器,然后是一个1x4的最大池化层,然后输出被压平并馈送到一个大小为1024的完全连接层。我们强调使用浅层神经网络模型在处理能力有限的边缘设备上使用,并降低了联邦学习中的通信成本。这些模型使用大小为32的小批量SGD进行训练,为了应对过拟合,使用了0.50的辍学率。这些模型是使用张量流开发的。

在这里插入图片描述
地球世界数据集被视为一个客户端,有其各自的数据,导致15个不同的客户端(15名受试者)。每个客户机的数据集依次被划分为80%-20%的比例,以获得本地训练和测试数据集,用于评估客户机模型的性能。我们还将所有的局部训练和测试集结合起来,分别生成统一的全局训练和测试集,用于评估客户机模型对不可见数据的行为。
我们在大部分实验中使用了200轮交流,每个客户总共训练了5个局部时代,学习率为0.01。对于没有联合学习的训练,我们对每个模型使用了200个epoch。尊重与真实世界数据集的原始研究中使用的相同度量,使用f度量报告集中方法的结果。而我们的联邦/地方学习方法的发现是使用其准确性提出的。
我们对FedAvg和FedMa算法场景的研究包括3种不同的评估。
第一个评估是使用服务器上的聚合模型来对全局数据集进行测试。由于服务器上的模型间接地看到了所有的训练数据集,因此测试的结果可以最好地用于评估联邦学习和集中学习方法之间的性能差异。
在第二次评估中,我们在客户自己的本地数据集上测试每个客户的模型,以了解客户的个性化能力。
第三个评估再次使用客户机的模型,但是针对来自所有客户机的组合全局数据集对其进行测试。我们推断,这种评估提供了关于客户机模型如何对未看到的数据执行的关键见解,这强调了联邦学习的主要好处之一。
对于FedPer算法,服务器缺少一个全局模型,并且只有基本层的权重。自然,只执行了两个本地评估(客户模型根据它们自己的数据集和组合的数据集进行测试)。
为了进一步与传统的学习方法进行比较,我们还在单个的本地数据集上分别训练了15个独立的模型,而没有使用任何联邦学习技术。我们将这个训练场景称为本地学习。我们用本地模型进行测试的所有结果都显示为所有客户的测量度量的平均值和标准偏差。

4.2集中式培训方法

对真实世界数据集[8]的原始研究提出了一种基于随机森林分类器(RFC)的活动独立方法,并达到了81%的f测度。最近,目前大多数最先进的HAR解决方案都采用了基于某种形式的cnn[6]的方法。
当使用两层DNN以及我们提出的类似的CNN模型(见表2)。实验表明,我们的DNN/CNN模型具有很好的调整和最先进的数据集。浅层CNN模型比DNN模型表现得更好。因此,在本文的其余部分,由于我们的研究集中在联邦学习算法的不同聚合方法如何以自己的方式影响神经网络,我们将只关注用CNN呈现结果。
所提出的CNN模型采用集中式学习方法,在全局测试集上获得了91.84%的f-度量。当我们使用相同的模型对每个局部测试集进行单独评估时,我们得到了91.99%的平均准确率得分。该模型会迅速收敛(如图2和图3所示)。在大约10个时代,之后几乎没有收获。

五、conclusion

与经典的普及计算集中式学习相比,联邦学习显示出明显的理论优势。观点但是,我们对这些优势是如何在实践中实际实现的,以及这些学习方法的行为知之甚少。在本研究中,我们实现了3种主要的FL算法,并在HAR任务上对它们进行了评估。我们曾期望这种学习方案应该导致对设备的高度适应(对其自身数据的高客户端精度),同时保持高度的泛化(例如,防止过拟合,对全局数据的高客户端精度)。
在表3中总结的结果表明,FedAvg方法确实表现出了这种行为。该结果也证明了其他更复杂的FL算法在HAR任务上的局限性。这就需要对FL算法进行更多的研究,考虑到这些算法应该进化的生态系统(任务、通信、长期学习)。我们可以看到,基线FedAvg算法比其他复杂算法获得了更好的性能。这可以说,由于FedMA和FedPer有额外的设计来改进本地模型的个性化,它们仍然包含了客户财产的平均化。更个性化模型的平均导致对服务器模型的递减效应,这反映了在对全局测试集进行评估时较低的准确性。
尽管这些结果增加了联邦学习对普适计算的兴趣,但未来仍存在许多挑战。未来的工作需要研究FL的鲁棒性:异步学习(设备来来去去),客户端数据的突然变化,通信问题,设备的异构种群(例如,旅行设备),以及服务器数据和客户端之间的不匹配(噪声采集)。此外,还需要长期的研究来优化沟通时间表和终身学习效果,如灾难性遗忘[11]。我们还建议社区为这一领域的研究的比较和复制建立基准,我们认为这里提出的研究是这个方向的基石。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bu volcano

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值