《Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Federated Learning》针对目前联邦学习中的节点选择策略存在的有偏抽样、server-client通信和训练稳定性问题,这篇文章提出采用聚类抽样的方法进行节点选择,并证明了聚类抽样能提高用户的代表性、减少不同客户聚合时的权重方差。本文提出了基于样本数量和基于相似性的两种聚合抽样方法,并通过实验证明,采用聚类抽样的方法进行节点选择可以使聚合模型在训练和测试时取得更快更平滑的收敛性。
无偏抽样
当抽样得到的客户聚合的期望值等于考虑所有客户而得到的全局聚合时,这样的客户抽样方案称为无偏抽样方案。
看文字可能不太好来理解,用公式表达就是(6)的形式,其中 w j ( S t ) w_j(S_t) wj(St) 是抽样得到的客户子集 S t S_t St 中客户 j 的聚合权重, p i p_i pi是客户 i 的样本数量 n i n_i ni 在所有客户的样本数量 M = Σ i = 1 n n i Σ_{i=1}^nn_i Σi=1nni 中的比例 n i n_i n