联邦学习进展总结
理论研究总结
- 提升通信性能,提高联邦学习训练效率,方案概括来说包括:
- 减少不必要的参数传输。
- 对模型或梯度进行压缩。
- 减少全局的训练次数。
- 异步的更新机制。
- 提升安全性,保障隐私数据安全。安全性威胁主要来自两个方面:一是来自外部的威胁,例如针对联邦学习客户端或服务端的外部攻击、传输过程中可能存在的信息泄露等。二是来自内部的威胁,也就是当参与联邦学习训练的客户端或服务端是一个恶意的参与方,它会通过篡改模型的参数或数据、加入后门等策略达到攻击的效果。
针对来自外部的攻击,可以采用同态加密、多方安全计算、差分隐私等隐私保护技术。
针对来自内部的攻击,当前的策略包括:
- 异常检测。包括对异常模型的检测,也包括对异常客户端的检测。
- 采用更随机的挑选策略。在每一轮迭代过程中,都会挑选一部分客户端设备而不是全部参与下一轮训练。
- 模型公平性和收敛性。在联邦学习中,每个参与方本地的训练数据都是独立提供的,即数据通常是非独立同分布(Non-IID)的;另一方面是各参与方提供的数据量大小不等。
缓解Non-IID的一种策略是通过对多方的客户端数据分布进行学习,得到一个生成模型,然后将其发送给各参与方,让各参与方生成更多分布均匀的数据。
未来展望
联邦学习的可解析性
模型的可解析性是当前人工智能的研究热点。特别是在将算法模型落地到工业界时,我们需要向客户解析产生这个结果的原因。
面向客户和开发人员两个群体,可解析性主要包括模型结构的可解析性和模型结果输出的可解析性两个方面。
- 模型结构的可解析性:即通过可视化、参数分析等方式让用户理解复杂的内部结构,通过对比实验解释模型的运行原理。
- 模型结果的可解析性:一个典型的机器学习流程包括模型训练和模型推断两个阶段。为了使结果的输出可解析,当前一般采取的策略包括两种:
- 训练的模型采用可解析的模型,主要包括线性模型、决策树模型、朴素贝叶斯模型和K近邻算法。
- 采用模型无关的可解析策略。模型无关的可解析性策略将解释与机器学习模型分离。模型无关的解释方法相对于可解析性模型的最大优势在于其灵活性,能应用到任意的模型上。
面向监管和立法机构人员和参与方,以下几个问题是特别关心的问题:
- 模型的隐私损失解析:在联邦学习的落地应用中,通常需要在模型效率、模型准确度和数据的隐私损失之间取一个平衡点。
- 联邦学习的公平性解析:参与联邦学习训练的参与方至少有两个,每个参与方都期望自身的数据和模型能够对联邦社区做出贡献。如果能够在不泄露隐私的前提下,将每个参与方对全局模型的贡献以某种方式展示出来,就能提高每个参与方的积极性,促进联邦学习生态的发展。
联邦学习的公平性激励机制
要想使联邦学习模型取得好的效果,需要各参与方持续提供高质量的训练数据,同时让更多的参与方加入联邦生态,就要通过鼓励联邦生态中的参与方多做贡献,并且能够根据对模型的贡献度分配来激励参与者——这就是联邦学习的公平性机制问题。
激励机制通常与博弈论等数学知识关系密切,当前的研究仍在起步阶段,在今后的发展中有很大的研究价值和应用空间。
联邦学习的模型收敛性和性能分析
从效率角度来说,目前联邦学习仍然有许多需要提升的地方。
- 有限资源下的参数调节。在联邦学习中,除了具有与深度学习或传统机器学习相似的优化函数选择,例如学习率、批量大小、正则化等,还要考虑聚合规则、每个迭代中选择的客户端数量、本地每轮的迭代数量等参数选择。
- 有限的通信带宽及设备的不可靠性。在靠近终端设备的节点,或则互联网中靠近终端的端方用户,通常拥有较低的网络带宽和通信效率。同时,这种网络连接可能有较高的花费,或者无法保证完全稳定在线。
- 非独立同分布的数据。与中心化的机器学习训练过程相比,这种数据分布造成的影响将降低模型训练效果。未来的几个研究方向包括对目标函数进行改进、对优化函数进行改进等。
- 特殊数据的处理。在很多时候,引入的新数据可能与之前所有参与方使用的数据完全不同,从而被误判为异常数据。对这种特殊数据的处理,当前联邦学习还没有一个很好的解决方案。
本读书笔记系列针对2021年5月出版的《联邦学习实战》(见下图),后续部分将逐步更新