Towards Personalized Federated Learning
一、个性化联邦学习的动机
通用的FL方法面临着几个根本性的挑战:(i)对高度异构数据的收敛性差,(ii)缺乏解决方案个性化。在存在异构本地数据分布的情况下,这些问题会降低全局FL模型在单个客户机上的性能,甚至可能使受影响的客户机不愿加入FL进程。与传统FL相比,PFL研究旨在解决这两个挑战。
1)异构数据收敛性差:在非独立同分布(non-IID)数据上学习时,fedag的准确性会显著降低。这种性能下降归因于客户端漂移现象,这是在非iid的本地数据分布上进行本地训练和同步的结果。
2)缺乏解决方案个性化:在传统FL设置中,一个单一的全局共享模型被训练以适应“普通客户”。因此,对于与全局分布非常不同的局部分布,全局模型将不能很好地泛化。对于经常面对非iid本地数据集的实际应用来说,只有一个模型通常是不够的。
图1说明了集中式机器学习、FL和PFL的关键概念和动机。
图1:个性化联邦学习的概念、动机和建议分类。a.集中式机器学习,将数据汇集在一起以训练中央ML模型。b.联邦学习,在中心参数服务器的编排下训练全局模型。数据驻留在不同的数据筒仓中。c.个性化联邦学习,它通过全局模型个性化和个性化模型学习来解决FL的局限性。PFL方法有四大类:1)基于数据的,2)基于模型的,3)基于体系结构的,4)基于相似性的。
二、个性化联邦学习的策略
1、全局模型个性化
第一个策略解决了在异构数据上训练全局共享FL模型的性能问题。当在非iid数据上学习时,由于客户端漂移,基于fedavg的方法的准确性显著降低。
在全局模型个性化下,PFL设置密切遵循一般FL训练过程,其中训练单个全局FL模型。然后,通过对每个本地数据集进行额外训练的本地适应步骤,为每个FL客户端个性化训练的全局FL模型。由于个性化性能直接取决于全局模型的泛化性能,许多PFL方法旨在提高数据异构下全局模型的性能,以提高后续对局部数据的个性化性能。这一类的个性化技术分为基于数据的方法和基于模型的方法。基于数据库的方法旨在通过减少客户端数据集之间的统计异质性来缓解客户端漂移问题,而基于模型的方法旨在学习一个强大的全局模型,以便将来对单个客户进行个性化处理或提高局部模型的自适应性能。
图2:策略1:全局模型个性化下的方法的设置和配置。基于数据的方法a-b:(a)数据增强,(b)客户选择。基于模型的方法c - e:(c)正则化局部损失;正则化可以在1)全局模型和局部模型之间进行,2)历史局部模型快照之间进行,(d)元学习,(e)迁移学习。
基于数据的方法
由于在异构数据上进行联邦训练所引起的客户端漂移问题,基于数据的方法旨在减少客户端数据分布的统计异