题目:Mitigating the performance sacrifice in DP-satisfied federated settings through graph contrastive learning
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0020025523011374?via%3Dihub
1 引言
目前,图学习模型是帮助研究人员探索图结构化数据不可或缺的工具。在学术界,使用足够的训练数据在单个硬件设备上来优化图模型是训练强大的图学习模型的典型方法。然而,出于隐私考虑,在现实场景中这样做是不可行的,因为将大量数据集中在某一个设备上会有极大的隐私泄露风险。联邦学习提供了通过引入各种隐私保护机制的策略来解决这一问题,例如作为图结构上的差分隐私(DP)。然而,虽然联邦图中的DP学习可以确保图表示的敏感信息的安全性,这通常会导致图学习模型的性能下降。在本文中,我们研究了DP如何可以在图的边缘上实现,并在我们的实验中观察到性能下降。此外,我们注意到图边缘上的 DP 引入了扰乱图邻近度的噪声,这是图对比学习中的图增强之一。受此启发,我们建议利用图对比学习来减轻由于以下原因导致的性能下降DP。作者使用四种具有代表性的图模型对五个被广泛使用的基准数据集进行了大量实验,实验结果表明图对比学习的确缓解了图学习模型由DP引起的性能下降。
2 示例
为帮助读者更好理解图结构上的差分隐私保护以及更好地建立图结构上差分隐私和图增强(Graph Augmentation)技术的关联,该论文提供了一个有助于理解的例子。
假设有一个由三个实体组成的关系网络。最初,𝑎和𝑏、𝑐均有关系。然后,在𝑏和𝑐之间建立新的连接。如果恶意攻击者在两个不同的时间段发起差分攻击攻击该网络,他或她就会意识到𝑏和𝑐之间的关系发生了变化,这种关系变化可能就是系统需要进行保护的隐私信息。为了防御此类攻击,我们引入噪声 扰乱各边上的具体值,从而防止攻击者能够通过单次或多次差分攻击参与者确定任何两个参与者是否已相关联。因为引入的噪声的期望值为0,所以需要在短时间内平均大量查询结果才能得出精确的查询结果,而这对于恶意攻击者来说是不可行的。
3 方法流程
3.1 概述
上图所示即为本位所提出框架的大概工作流程:
-
下载云端模型至本地设备上;
-
往图数据中引入噪声实现差分隐私;
-
通过训练来更新本地设备的模型参数;
-
上传本地设备的模型参数至语段服务器;
-
通过联邦学习算法更新云端模型。
3.2 图边上的差分隐私
原始图数据将被更改为全连接图并被赋予边权重,其中,原始数据中存在的边权重即为1,原始数据中不存在的则为0。我们生成特定的噪声且满足分布 ,其中 是敏感值,一般设为1, 是隐私预算。随后,生成的噪声将被附加到所有边权重上来实现差分隐私。
3.3 图对比学习
下图为在某一个用户设备上进行图对比学习的具体步骤展示。
-
__训练数据划分__:每个本地设备都会被分配整体训练数据中的一部分,令每个本地设备需处理的数据量,即图的数量,为 ;
-
__对图边进行差分隐私操作__:本步骤与3.2相同,具体细节请参见原文;
-
__维护负例列表__:为符合图对比学习流程,我们需要维护一个大小为 的负例列表,其中初始元素是从整体数据集中进行随机采样得到的,在随后的训练中,会有新生成的数据插入其中并替换掉过时的负例;
-
__对比样本组合__:给定一个图 ,对其进行两次DP操作可得到两个扰动之后的图,即 ,该对图即可作为正例对,随后从负例列表中选取多个负例与两个图中的其中一对组合即可得到多对负例对;
-
__图编码__:在得到一系列的图之后,需要对这些图进行编码得到图表征向量以便后续操作。本文使用了包括了GCN, GAT, GraphSAGE等三种最经典的图神经网络来进行操作。
-
__对比学习训练目标__:对比学习的训练目标可理解为最大化正例对之间的互信息和最小化负例对之间的互信息。本文采用了被广泛使用InfoNCE作为训练目标。
3.4 全局模型更新
本文采用了最经典的联邦学习算法FedAvg来进行模型更新。令 为全局模型在t时刻的模型参数, 为第i个本地设备在t+1时刻的模型参数。假设一共有M个本地设备,每轮更新有c个本地模型参与,记为 ,则更新过程为:
4 实验
该论文使用三个经典的图神经网络和被广泛使用的对比学习和联邦学习设定来检验所提出方法的有效性。
4.1 实验设定及数据集
由于本文采用的设定和数据集均被相关领域内研究者广泛采用,本文不再赘叙,详情请参见原文。
4.2 实验结果
4.2.1 图结构差分隐私会使模型效果下降多少?
根据实验结果表明,非联邦学习设定下的图学习模型在所有情况下均优于联邦学习设定,该现象也被其他研究者所证实。其主要原因在于联邦学习将数据分发到不同设备,进行全局训练时可能会引入更多噪声。
随后,论文作者引入了差分隐私机制,在该设定的下结果差于最基础的联邦学习设定。其原因在于引入的噪声破坏了原始数据,使得模型更难学到高质量的表征向量。
4.2.2 图对比学习能缓解差分隐私带来的性能下降吗?
尽管图对比学习不能帮助模型取得在本地学习时的效果,但是其能在启用差分隐私的情况下使得模型具有在基础联邦学习设定(即没有启用差分隐私)下的效果。该实验证明了图对比学习对于缓解有图结构上差分隐私所带来的性能下降是有效的,也从侧面反映了作者所提出的差分隐私与图对比学习中图增强(Graph Augmentation)技术的关联性。
5 总结
本文提出了一种新颖的联邦图对比学习方法FGCL,这是第一个在联邦学习设定中关于隐私感知的图对比学习。受到对图上差分隐私和图对比学习中的图增强(Graph Augmentation)技术之间相似性的观察和启发,本文作者创新性地采用图对比学习方法来帮助模型缓解差分隐私机制引入的噪声所带来的影响。根据综合实验结果,该论文提出的FGCL方法缓解了DP机制引入的噪声造成的图学习模型的性能下降。