联邦学习贡献评估综述 王 勇, 李国良, 李开宇
数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式. 多个数据持有方参与联邦 学习时的贡献评估是联邦学习的核心问题之一. 参与方贡献评估需要兼顾有效性、公平性和合理性等要素, 在理论方法与实际应用中均面临多项挑战.
- 贡献评估首先需要明确如何度量数据价值, 然而数据估值存在主观性与依 赖于实际任务场景的特点, 如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.
- 其次, 联邦学 习合作中的参与方贡献评估是经典的合作博弈问题, 如何制定公平合理的参与方贡献评估方案, 实现参与方一致认可的博弈平衡是第二大挑战.
- 最后, 参与方贡献评估往往计算复杂度高, 同时, 联邦学习中围绕模型的数据估 值时间开销大, 因此, 在实践中如何设计高效且准确的近似算法是第三大挑战.
数据估值子问题
如何有效地评估参与方 (数据)在联邦合作中的贡献, 是联邦学习实际应用与长远发展的关键问题. 贡献评估首先需要考虑如何度量数据价值高低的问题, 即数据估值子问题。
最直观的数据估值指标是测试准确率: 基于数据训练联邦模型, 在联邦测试集上评测模型, 测试准确率越高, 则认为训练数据的价值越高.
缺点:确定数据估值指标后, 容易将参与方自身的数据价值直接等同于参与方对联邦合作的贡献, 比如, 用参与方独自训练模型的联邦测试准确率来评价其在后续联邦合作中的贡献. 然而, 联邦合作下全体参与方的数据 价值一般不等于各参与方数据价值之和, 即参与方个体数据价值并不能代表其在联邦合作中的贡献.
从博弈论的角度来看
评估个体在联邦合作中的贡献是合作博弈问题, 需要考虑如何实现利益的均衡分配. 比如, 持 有常规场景数据的参与方个体数据价值大, 而持有少量互补场景数据的参与方个体数据价值小, 但在已有常 规参与方情况下, 互补参与方能为联邦带来显著的边际价值增益, 解决联邦性能瓶颈的问题.
因此, 贡献评估 需要从联邦集体出发, 研究参与方数据在组合中的贡献期望, 以有效地评价参与方在联邦合作中的贡献 , 即 制定贡献评估方案子问题.
面临的主要挑战
- 数据估值的有效性和可靠性
- 数据的估值依赖于任务上下文(数据的价值是相对的)
- 低质量的数据估值应该较低
- 贡献评估的公平性和合理性
- 如果参与方的加入不能给联邦学习带来边际价值增益,则该参与方对联邦无贡献。
- 对于一个整体来说,数据的组合价值应等于所有参与方的贡献之和。
- 贡献评估计算的高效性