文章信息:
Title: Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection
Authors: Eli Chien* (UIUC), Wei-Ning Chen* (Stanford), Chao Pan* (UIUC), Pan Li (GaTech), Ayfer Özgür (Stanford), Olgica Milenkovic (UIUC).
文章链结:
https://arxiv.org/abs/2307.06422
代码:
https://github.com/thupchnsky/dp-gnn
摘要
图神经网络(GNNs)在许多包含图数据的任务中展现了强大的性能,然而GNNs也如同一般神经网络有泄漏用户数据隐私的风险。差分隐私(Differential Privacy, DP)为一普遍被人接受的量化隐私定义,而用DP-SGD训练神经网络以保证其参数的DP性质为现今最广为利用的保户用户隐私的策略之一。其主要思路为在神经网络在预测阶段,其只透过神经网络参数利用训练数据信息,因此,若我们保证其参数的DP性质,基于DP后处理的鲁棒性(post-processing robostness)我们也能保证预测结果(i.e., 标签)的DP性质。
现有DP-GNN的问题
一般人可能猜测我们可以透过修改DP-SGD来达成GNN的DP保护,然而,由于GNN的预测(i.e., 节点标签)会利用邻居节点信息(训练数据集),因此即使利用了DP-SGD来保证GNN参数的DP性质,也无法得到其最终预测的DP保证。另外,在许多实际场景中,我们对于图拓朴与节点特征信息的隐私要求可能并不相同,我们分析指出现有的DP-GNN设计并不能提供多粒度的图拓朴隐私保护。
贡献
为了解决上述问题,我们对于DP for GNN进行了系统性的分析。我们的主要贡献如下:
✦ 提出Graph DP (GDP) 分析框架: 保证GNN参数与最终预测的隐私保护。
✦ 提出统一的"邻近"图数据(adjacent graph datasets)定义:这使我们能够分析多粒度图拓朴隐私保护的情况。
✦ 指出现有图卷积的隐私保护缺陷:我们证明了任何基于一般图卷积设计的GNN皆无法有效提供多粒度图拓朴隐私保护。
✦基于我们GDP的分析,我们提出了解耦图卷积设计来解决上述问题。
图1:(a) 一般图数据,包含了节点特征与标签(X,Y)以及图拓朴信息,以连接矩阵A表示。(b,c) 统一的邻近图数据定义,以及之前DPGNN工作考虑的特例。(d) 一般图卷积设计以及其对应的敏感度(sensitivity)。(e)解耦图卷积设计与其对应的敏感度
邻近图数据与GDP定义
一般的DP定义如下:
其主要为刻划模型参数或输出结果于 邻近数据集 上的 不可分辨程度(indistinguishability)。可以发现上述定义中控制隐私强度包含两个维度:
✦ (ε,δ ):此主要刻划模型参数或输出的不可分辨程度。
✦ 邻近数据集:此主要定义了我们希望模型参数或输出结果在哪些数据集对 (dataset pair)上是不容易区分的。
之前的DP-GNN研究主要关注于 edge-level 或 node-level的邻近数据集定义,也就是邻近数据集中分别只差一个边或是一整个节点。这两个定义出的隐私在现实场景中可能太弱或是太侷限,我们应该要能针对与有不同程度的隐私刻划。因此我们提出了k-neighbor-level的定义(图1(b)),不仅囊括了上述两个定义,更针对提供了不同粒度的保护(见图1(c))。此外我们也给出了在图学习场景下合理的DP定义:
其重点在于若我们要预测节点的标签,我们便不会"保护"其相关信息(i.e., 节点不会在邻近数据集中被取代)。这是对于用户而言,对他自己保护其自身数据信息是没有意义的。
一般与解耦DPGNN设计与理论分析
图2:GAP为之前的DPGNN SOTA,其设计是基于一般图卷积,DPDGC为我们基于解耦图卷积概念提出的DPGNN。
直观来说,对于k-neighbor GDP的隐私条件下,一个有效的DPGNN对于较小的k应该具有较小的敏感度(sensitivity), 因此应该只需要加入较小的隐私噪声。然而我们的GDP分析指出一般的图卷积设计(如GAP,见图2)的敏感度并不会随着k下降而下降(见图1(d)),且会与最大节点度(node degree)成正比。与之相对,我们提出的解耦图卷积设计DPDGC(见图2),其敏感度可以随着k下降而降低,并与最大节点度无关(见图1(e))!
完整分析请参阅我们的paper,这里只提供一个大致的理论思路。传统的图卷积设计包含了 操作,也就是直接于图上传播节点特征信息,因此,的同时变化不可避免得会造成很大敏感度。与之相对的,我们解耦图卷积设计为先学一个DP的节点嵌入(embedding) ,然后只做操作,之后才与节点特征结合。这样解耦设计的好处为可以利用DP的组合定理(composition theorem),因此在分析敏感度时只有会变化,为不变的。因此最后的敏感度相比操作会小很多。
实验结果
表1
图3
完整的实验讨论分析请见paper,这里主要点出主要几个结果。
✦ 我们解耦设计的DPDGC一般来说具有最好的隐私-性能平衡,且能针对k-neighbor GDP下不同的k有更好的性能表现。见表1,图3右上以及左下。
✦ 我们实验指出node-level GDP的隐私要求确实有可能太过侷限,例如在部分数据集上DP-MLP (完全不利用图信息)反而具有最好的性能表现。见表1与图3左下。
✦ 我们猜测其原因为由于利用图拓朴信息需要加入额外的噪声,当图拓朴信息对于性能帮助过弱的情况下,直接不用图拓朴信息(如DP-MLP)为更优策略。
✦ 我们于cSBM (contextual stochastic blockmodel)上的实验验证了我们的想法,其中的大小代表图信息与节点特征信息的"比例",当代表信息完全集中于图拓朴上而代表信息完全集中于节点特征上,可以看到当接近于0时的确DP-MLP具有最好的表现,而当足够大时DP-GNN则能有更好的性能。见图3右下。
结语与未来方向
我们的工作完整的建立DP for GNN的分析框架,以及多粒度拓朴保护下的定义,根据我们的结果,我们可以发现在要求GDP隐私保护下,现有性能最好的GNN设计未必是最优的,一个很有趣的未来方向便是GNN的性能-隐私共同设计(privacy-utility co-design),另外我们的实验结果也意外地指出,在极端情况下DP-MLP的性能表现是高过现有DPGNN设计的,另一个有趣的问题便是我们能否设计出一个新的DPGNN,使其在所有情况下都能至少不差于DP-MLP?最后,我们也希望GNN与DP社群能够多加合作,一起推进GNN隐私保护的进程。