【NeurIPS 2023】解耦图卷积的多粒度图拓朴差分隐私保护

AITIME论道

于 2023-10-18 18:30:30 发布

阅读量842

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247518795&idx=1&sn=3af4931a30e998c0511cc8a83ef61f55&chksm=e932b8edde4531fbab2b902b186db53e33ba2d3e0458e12074da4b359aa0517a856e8880a47a&scene=126&sessionid=0

版权

文章信息:

Title: Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection

Authors: Eli Chien* (UIUC), Wei-Ning Chen* (Stanford), Chao Pan* (UIUC), Pan Li (GaTech), Ayfer Özgür (Stanford), Olgica Milenkovic (UIUC).

文章链结:

https://arxiv.org/abs/2307.06422

代码：

https://github.com/thupchnsky/dp-gnn

摘要

图神经网络(GNNs)在许多包含图数据的任务中展现了强大的性能，然而GNNs也如同一般神经网络有泄漏用户数据隐私的风险。差分隐私(Differential Privacy, DP)为一普遍被人接受的量化隐私定义，而用DP-SGD训练神经网络以保证其参数的DP性质为现今最广为利用的保户用户隐私的策略之一。其主要思路为在神经网络在预测阶段，其只透过神经网络参数利用训练数据信息，因此，若我们保证其参数的DP性质，基于DP后处理的鲁棒性(post-processing robostness)我们也能保证预测结果(i.e., 标签)的DP性质。

现有DP-GNN的问题

一般人可能猜测我们可以透过修改DP-SGD来达成GNN的DP保护，然而，由于GNN的预测(i.e., 节点标签)会利用邻居节点信息(训练数据集)，因此即使利用了DP-SGD来保证GNN参数的DP性质，也无法得到其最终预测的DP保证。另外，在许多实际场景中，我们对于图拓朴与节点特征信息的隐私要求可能并不相同，我们分析指出现有的DP-GNN设计并不能提供多粒度的图拓朴隐私保护。

贡献

为了解决上述问题，我们对于DP for GNN进行了系统性的分析。我们的主要贡献如下：

✦ 提出Graph DP (GDP) 分析框架: 保证GNN参数与最终预测的隐私保护。

✦ 提出统一的"邻近"图数据(adjacent graph datasets)定义：这使我们能够分析多粒度图拓朴隐私保护的情况。

✦ 指出现有图卷积的隐私保护缺陷：我们证明了任何基于一般图卷积设计的GNN皆无法有效提供多粒度图拓朴隐私保护。

✦基于我们GDP的分析，我们提出了解耦图卷积设计来解决上述问题。

图1:(a) 一般图数据，包含了节点特征与标签(X,Y)以及图拓朴信息，以连接矩阵A表示。(b,c) 统一的邻近图数据定义，以及之前DPGNN工作考虑的特例。(d) 一般图卷积设计以及其对应的敏感度(sensitivity)。(e)解耦图卷积设计与其对应的敏感度

邻近图数据与GDP定义

一般的DP定义如下：

其主要为刻划模型参数或输出结果于 邻近数据集 上的 不可分辨程度(indistinguishability)。可以发现上述定义中控制隐私强度包含两个维度：

✦ （ε，δ ）：此主要刻划模型参数或输出的不可分辨程度。

✦ 邻近数据集：此主要定义了我们希望模型参数或输出结果在哪些数据集对 (dataset pair)上是不容易区分的。

之前的DP-GNN研究主要关注于 edge-level 或 node-level的邻近数据集定义，也就是邻近数据集中分别只差一个边或是一整个节点。这两个定义出的隐私在现实场景中可能太弱或是太侷限，我们应该要能针对与有不同程度的隐私刻划。因此我们提出了k-neighbor-level的定义(图1(b))，不仅囊括了上述两个定义，更针对提供了不同粒度的保护(见图1(c))。此外我们也给出了在图学习场景下合理的DP定义：

其重点在于若我们要预测节点的标签，我们便不会"保护"其相关信息(i.e., 节点不会在邻近数据集中被取代)。这是对于用户而言，对他自己保护其自身数据信息是没有意义的。

一般与解耦DPGNN设计与理论分析

图2:GAP为之前的DPGNN SOTA，其设计是基于一般图卷积，DPDGC为我们基于解耦图卷积概念提出的DPGNN。

直观来说，对于k-neighbor GDP的隐私条件下，一个有效的DPGNN对于较小的k应该具有较小的敏感度(sensitivity), 因此应该只需要加入较小的隐私噪声。然而我们的GDP分析指出一般的图卷积设计(如GAP，见图2)的敏感度并不会随着k下降而下降(见图1(d))，且会与最大节点度(node degree)成正比。与之相对，我们提出的解耦图卷积设计DPDGC(见图2)，其敏感度可以随着k下降而降低，并与最大节点度无关(见图1(e))！

完整分析请参阅我们的paper，这里只提供一个大致的理论思路。传统的图卷积设计包含了操作，也就是直接于图上传播节点特征信息，因此，的同时变化不可避免得会造成很大敏感度。与之相对的，我们解耦图卷积设计为先学一个DP的节点嵌入(embedding) ，然后只做操作，之后才与节点特征结合。这样解耦设计的好处为可以利用DP的组合定理(composition theorem),因此在分析敏感度时只有会变化，为不变的。因此最后的敏感度相比操作会小很多。

实验结果

表1

图3

完整的实验讨论分析请见paper，这里主要点出主要几个结果。

✦ 我们解耦设计的DPDGC一般来说具有最好的隐私-性能平衡，且能针对k-neighbor GDP下不同的k有更好的性能表现。见表1，图3右上以及左下。

✦ 我们实验指出node-level GDP的隐私要求确实有可能太过侷限，例如在部分数据集上DP-MLP (完全不利用图信息)反而具有最好的性能表现。见表1与图3左下。

✦ 我们猜测其原因为由于利用图拓朴信息需要加入额外的噪声，当图拓朴信息对于性能帮助过弱的情况下，直接不用图拓朴信息(如DP-MLP)为更优策略。

✦ 我们于cSBM (contextual stochastic blockmodel)上的实验验证了我们的想法，其中的大小代表图信息与节点特征信息的"比例"，当代表信息完全集中于图拓朴上而代表信息完全集中于节点特征上，可以看到当接近于0时的确DP-MLP具有最好的表现，而当足够大时DP-GNN则能有更好的性能。见图3右下。

结语与未来方向

我们的工作完整的建立DP for GNN的分析框架，以及多粒度拓朴保护下的定义，根据我们的结果，我们可以发现在要求GDP隐私保护下，现有性能最好的GNN设计未必是最优的，一个很有趣的未来方向便是GNN的性能-隐私共同设计(privacy-utility co-design)，另外我们的实验结果也意外地指出，在极端情况下DP-MLP的性能表现是高过现有DPGNN设计的，另一个有趣的问题便是我们能否设计出一个新的DPGNN，使其在所有情况下都能至少不差于DP-MLP？最后，我们也希望GNN与DP社群能够多加合作，一起推进GNN隐私保护的进程。