摘要
- 联邦学习的成本(学习时间、能源消耗)取决于选择的客户端数目以及每一轮训练的局部迭代次数;
- 本文将会分析如何设计适应性的联邦学习来选择最优的变量,在最小化总成本的同时保证模型收敛;
- 为了高效地解决成本最小化问题,本文提出了一种低成本的基于采样的算法来学习与收敛相关的未知参数;
- 本文证明了成本最小化问题最优解的重要特性并针对实际应用的不同要求提出了有效的设计原则;
- 作者在仿真环境和硬件样机上都评估了理论结果;实验结果证实了上述特性并证明了作者提出的解使用不同的数据集和机器学习模型,在各种各样的系统设定下都达到了接近最优的性能表现。
介绍
本文为了实现一个低成本且能够收敛的联邦学习模型考虑一个多变量控制问题。为了实现最小化期望的成本的目标,作者提出了一种在联邦学习过程中能够适应多种控制变量的算法。与现有研究相比,本文面临一下更具有挑战性的问题:
- 不同控制变量的选择是紧密联系的;
- 控制变量和学习收敛率的关系在现有文献中只能用一个带未知系数的上界描述;
- 成本目标函数包含多个组成部分(时间、能源),在不同的系统和应用场景中这些组成部分的重要性不同,而现有的研究中往往只考虑单一变量的优化问题(如最小化通信成本)。
作者将参与联邦学习的客户端数目K和局部迭代次数E当作联邦学习过程中的控制变量。本文将分析,怎样设计适应性联邦学习模型来选择K和E,使得总成本最小的同时保证模型收敛。文章的主要贡献如下:
- 优化问题:作者建立了总成本、控制变量以及凸函数收敛上界之间的联系,并基于此提出和分析了总成本最小化问题。作者提出了一个基于采样的算法,利用边际估计费用来学习收敛上界中的未知参数。作者证明了这个优化问题是关于K和E两面凸的,并基于封闭解提出了高效的解法。
- 理论特性:作者提出了理论上的重要特性并针对不同的优化目标提出了有效的设计原则。值的一提的是,K值的选择引出了在减少学习时间和节省能源之间的权衡,K越大越有利于减少学习时间,K越小越有利于节省能源。作者还证明了相对低的设备参与率不会严重减缓学习。关于E值的选择,作者证明了太小和太大的E值都不利于节省成本。E的最优值也依赖于计算成本和通信成本之间的关系。
- 仿真和实验:作者分别在仿真环境和硬件样机(20台树莓派设备)上用真实数据集评估了理论结果。实验结果证明了文章提出的设计原则以及推导出有关K和E的特性是可靠的。实验结果还证明了作者提出的优化算法在真实数据集以及用non-IID数据合成的数据集上都能获得近似最优解。作者还特别用实验证明了提出的方法在凸和非凸的机器学习模型上都能表现良好。
相关研究
- 联邦学习需要面临许多挑战,如non-IID和不均衡的数据、有限的通信带宽、有限的可用设备数目,并且需要和其他技术兼容。基于以上特点,本文基于同步联邦学习算法展开讨论;
- 当下最流行的联邦学习算法是FedAvg算法。其他的算法大都只能解决使用IID数据和客户端全部参与情形下的问题。而与FedAvg算法有关的研究也没有考虑优化成本和资源的问题;
- 在成本最小化问题中同时优化K和E的挑战,也是区分本文与现有研究的重要特点,是在解析上建立起总成本、多重控制变量以及收敛速率的联系;
- 此外,大部分现有联邦学习研究是基于仿真实验的,而本文在现实场景中用资源受限的真实硬件设备实现了文章提出的算法。