非独立同分布数据孤岛的联邦学习:一项实验研究

本文研究了非独立同分布(non-IID)数据在联邦学习中的影响,提出了全面的non-IID数据划分策略,并对FedAvg、FedProx、Scaffold和FedNova等算法进行了广泛实验。实验表明,non-IID数据分布对FL算法的精度带来挑战,且现有算法并不适应所有情况。FedProx和FedNova在某些设置下表现较好,但Scaffold在部分参与时效果不佳。未来研究方向包括分布式数据管理和针对non-IID数据的FL算法优化。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本篇分享论文Federated Learning on Non-IID Data Silos: An Experimental Study』,非独立同分布数据孤岛的联邦学习:一项实验研究。

详细信息如下:

5dbdef395636b7dc7d9c67556f13e309.png

  • 论文链接:https://arxiv.org/abs/2102.02079

  • 代码链接:https://github.com/Xtra-Computing/NIID-Bench

      01      

背景与引言

联合学习(FL)使多方能够在不交换本地数据的情况下协作地训练机器学习模型,其中一个关键和共同的挑战是各方之间的数据分布的异构性,即各方的数据通常是非独立且非同分布的(non-IID)。此外,由于以往的研究在各方之间的数据划分策略非常固定,因此缺乏系统地了解其优缺点的实验研究,在本文中,作者提出了全面的数据划分策略来覆盖以往典型的非独立同分布数据案例,同时还进行了广泛的实验来评估最先进的FL算法。

关于数据异构性主要是不同方的数据分布通常是非独立同分布的,同时标签分布也因各方而异,例如即使是同一个世界,人们也有不同的写作风格,因此各方的特征分布不同。以往研究已经表明non-IID数据设置会降低机器学习模型的有效性。进一步而言,以往研究中只尝试了一种或两种划分策略来模拟非独立同分布的数据设置,不足以覆盖大多数情况,因此有必要通过对不同非独立同分布场景进行系统探索来评估FL算法。

在本文中,作者提出了NIID-Bench,打破了FL中non-IID数据分布挑战的实验障碍。具体而言,本文介绍了六种non-IID数据划分策略,充分考虑了标签分布偏差、特征分布偏差和数量偏差等不同情况。此外,在九个数据集上进行了广泛的实验,以评估四种最先进FL算法(FedAvg, FedProx, Scaffold, FedNova)的性能与效率。

通过广泛的研究,本文有以下主要发现:

  1. non-IID数据分布确实给FL算法的学习精度带来了巨大的挑战,并且现有的FL算法并不能适应所有情况;

  2. FL算法的有效性与数据偏斜的类型高度相关,例如标签分布偏斜设置比数量偏斜设置更具有挑战性;

  3. 在non-IID数据设置中,由于批量归一化和部分采样等技术,模型学习过程的不稳定性广泛存在,这会严重损害机器学习模型在分布式数据孤岛上的有效性。

      02      

非独立同分布数据的FL算法

Notations:令D={(x,y)}表示全局数据集,假设有N方客户端并记为P1,…,PN,其中关于Pi的本地数据集记为Di={(xi,yi)}。我们分别用Wt和Wti来表示在迭代轮次t时的全局模型和局部模型,因此Wt是联邦学习过程的输出模型。

FedAvg算法:FedAvg已经成为一种经典的FL方法,FedAvg的框架如下图1所示。在每一轮中,服务器首先将全局模型发送给随机选择的参与方,然后各方使用其本地数据集更新模型,再将更新后的模型发送回服务器,最后服务器则将接收到的本地模型平均为更新后的全局模型。与传统的分布式SGD算法不同,FedAvg可以减少通信轮次,并且通信效率更高。然而,正如以往的研究表明,局部更新可能会导致较差的准确率。

Effect of Non-IID Data:F

### 回答1: "Federated learning with non-iid data" 的含义是:在独立同分布数据(non-iid data)的情况下进行联邦学习联邦学习是一种分布式学习的方法,其特点是模型的训练和更新是在本地设备上进行,而不是在中心服务器上进行。而独立同分布数据则意味着不同设备之间的数据具有不同的分布和特征,这会对联邦学习的效果造成挑战。因此,在进行联邦学习时,需要考虑如何处理这种情况,以提高模型的准确性和鲁棒性。 ### 回答2: 联邦学习是近年来备受关注的一种机器学习方法,其核心精神是通过多个客户端设备在本地进行数据处理和训练模型,不必将原始数据汇集到一起,避免了隐私泄露和数据传输带来的风险。但实际上,大多数现实场景中的数据并不是独立同分布的(non-iid),多个客户端设备所在的数据分布也极有可能不同,如何在保持原有联邦学习思路的基础上应对iid数据,也成为了当前研究的热门问题。 目前,学界和产业界对iid联邦学习的解决方案尝试有很多,其中一些典型的方法包括: 一、联邦聚类(Federated Clustering)。该方法利用监督和监督的数据聚类模型,对处理不同数据分布的客户端设备进行分类,形成若干个数据分布相似的组,然后在每个组中进行联合学习,对每个组得到的模型结果进行合并。 二、联邦迁移学习(Federated Transfer Learning)。该方法通过在源域数据上进行模型训练和参数更新,再通过一定的方法将已训练的模型迁移到目标域中进行更新和优化,从而使得目标域数据更好地适应模型。 三、混合学习(Federated Hybrid Learning)。该方法结合了联邦学习和分层模型的想法,将多个客户端设备的数据层级化,在相同维度的数据上进行联邦学习,但不同层级内的数据各自训练特定的模型。 以上这些方法都对iid联邦学习的问题提供了一定的思路和解决方案,在应用场景中也得到了初步的应用。但是,不同于iid数据的不同分布、语义、类别之间的差异使得iid联邦学习更具挑战性,其数据分布、协作策略、学习算法等方面的问题都需要进一步研究和提高。未来,我们需要不断探索更好、更高效、更准确的iid联邦学习的方法和方案,应用到各个行业领域提高数据的利用效率和隐私保护水平。 ### 回答3: 联邦学习是一种先进的机器学习技术,它允许多个参与方共同训练一个模型,而不需要将原始数据集集中在单个位置。这种分布式学习的方式可以最大程度地保护用户的数据隐私和安全。 然而,在实际应用中,有时候我们会遇到一些具有不同的分布性质的IID数据集。因为数据的不均匀和异构性质,使得对于分布在不同的机器上的数据进行联合训练变得更加困难。这种情况也称为不相同的数据偏移或数据漂移。不同分布性质的数据会导致训练模型的性能下降,因为模型无法对不同的数据进行适应。这也使得联合学习更具挑战性。 为了解决这个问题,可以对数据进行采样和重新加权,以便在融合时使每个本地模型对于不同的数据立场相对均衡。一种基于采样的方案是Federated Averaging with Local Adapation(FALA),它是一种高效的算法,它通过对于权值进行本地的调整,减少了由于数据偏移带来的下降的性能。此外,类别抽样和异质性采样也可以用来处理iid 的数据集之间的不相同。在数据偏移情况下,这需要更多的小样本和多轮次迭代。 另一种方法是加入对模型的个性化贡献,即在联合优化时分配不同的权重给本地模型或者对于不同的参与方使用不同的模型。例如,对于基于 神经网络的模型,可以采用逻辑斯蒂回归模型或者线性模型,以提高对于多样性的应对能力。 总而言之,对于不同的IID数据,需要在联合训练时采用合适的方案,以克服分布不均带来的挑战并获得更好的结果。需要根据不同的实际情况选择最佳的方法,以满足不同的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值