0 论文链接
1 提出的问题
1、简单的忽略跨客户端信息会导致模型不准确。
2、在客户端之间传递相邻节点的特征信息会引入显著的通信开销,并涉及隐私问题。
对于 IID 图,客户端之间会有许多的边,忽略跨客户端的边会缺失较多的信息;反之,对于 Non-IID 图,客户端之间的边数量较少,忽略跨客户端的边不会缺失过多的信息。如下图所示:
IID数据会使用更多的通信成本来传递缺失的边信息,而Non-IID数据由于忽略跨客户端边不会丢失过多的的信息,所以过多的通信回合是不必要的。
2 本文的贡献
1、提出FedGCN,一种用于联邦训练GCN的框架,用于解决通信有限和信息丢失的节点级预测任务,同时使用同态加密提供隐私保证。
2、理论分析了FedGCN相比现有方法的收敛速度和通信成本。
3、在合成和真实世界数据集上的实验证明了FedGCN比现有的方法具有更快的收敛速度、更高的精度、更低的通信成本。
3 FedGCN 算法
FedGCN要求在最初的通信回合中,让客户端和中央服务器之间进行通信。客户端将本地节点特征的加密累加发送到服务器。服务器每个节点的邻居特征,每个客户端接收并解密其一跳或两跳邻居的特征聚合。在通信之后,FedGCN使用标准的 FedAvg 来训练模型。
其中 W k t , e W^{t,e}_k Wkt,e表示在第 t t t 轮全局训练中,客户端 k k k的第 e e e轮本地训练步骤中 L L L个GCN层的权重 W k ( l ) W^{(l)}_k Wk(l)的串联。并使用 f k f_k fk表示本地损失函数。在本地步骤 τ \tau τ 后,客户端的局部模型更新被发送到中央服务器进行全局模型更新,新的全局模型被推回到所有客户端进行下一轮训练。该过程循环 T T T次,直到收敛。