【NeurIPS 2023】解耦图卷积的多粒度图拓朴差分隐私保护

文章信息:

2179c639af2c43b3fb08153a33a1baca.png

Title: Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection

Authors: Eli Chien* (UIUC), Wei-Ning Chen* (Stanford), Chao Pan* (UIUC), Pan Li (GaTech), Ayfer Özgür (Stanford), Olgica Milenkovic (UIUC).

文章链结:

https://arxiv.org/abs/2307.06422

代码:

https://github.com/thupchnsky/dp-gnn

摘要

图神经网络(GNNs)在许多包含图数据的任务中展现了强大的性能,然而GNNs也如同一般神经网络有泄漏用户数据隐私的风险。差分隐私(Differential Privacy, DP)为一普遍被人接受的量化隐私定义,而用DP-SGD训练神经网络以保证其参数的DP性质为现今最广为利用的保户用户隐私的策略之一。其主要思路为在神经网络在预测阶段,其只透过神经网络参数利用训练数据信息,因此,若我们保证其参数的DP性质,基于DP后处理的鲁棒性(post-processing robostness)我们也能保证预测结果(i.e., 标签)的DP性质。

现有DP-GNN的问题

一般人可能猜测我们可以透过修改DP-SGD来达成GNN的DP保护,然而,由于GNN的预测(i.e., 节点标签)会利用邻居节点信息(训练数据集),因此即使利用了DP-SGD来保证GNN参数的DP性质,也无法得到其最终预测的DP保证。另外,在许多实际场景中,我们对于图拓朴与节点特征信息的隐私要求可能并不相同,我们分析指出现有的DP-GNN设计并不能提供多粒度的图拓朴隐私保护。

贡献

为了解决上述问题,我们对于DP for GNN进行了系统性的分析。我们的主要贡献如下:

✦ 提出Graph DP (GDP) 分析框架: 保证GNN参数与最终预测的隐私保护。

✦ 提出统一的"邻近"图数据(adjacent graph datasets)定义:这使我们能够分析多粒度图拓朴隐私保护的情况。

✦ 指出现有图卷积的隐私保护缺陷:我们证明了任何基于一般图卷积设计的GNN皆无法有效提供多粒度图拓朴隐私保护。

✦基于我们GDP的分析,我们提出了解耦图卷积设计来解决上述问题。

65f5c90233a6c8f72f05957de8ffe36c.png

图1:(a) 一般图数据,包含了节点特征与标签(X,Y)以及图拓朴信息,以连接矩阵A表示。(b,c) 统一的邻近图数据定义,以及之前DPGNN工作考虑的特例。(d) 一般图卷积设计以及其对应的敏感度(sensitivity)。(e)解耦图卷积设计与其对应的敏感度

邻近图数据与GDP定义

一般的DP定义如下:

e6d14ae4a5ef569151ca11e5309b6ffa.png

其主要为刻划模型参数或输出结果于 邻近数据集 上的 不可分辨程度(indistinguishability)。可以发现上述定义中控制隐私强度包含两个维度:

✦ (ε,δ ):此主要刻划模型参数或输出的不可分辨程度

✦ 邻近数据集:此主要定义了我们希望模型参数或输出结果在哪些数据集对 (dataset pair)上是不容易区分的。

之前的DP-GNN研究主要关注于 edge-level 或 node-level的邻近数据集定义,也就是邻近数据集中分别只差一个边或是一整个节点。这两个定义出的隐私在现实场景中可能太弱或是太侷限,我们应该要能针对与有不同程度的隐私刻划。因此我们提出了k-neighbor-level的定义(图1(b)),不仅囊括了上述两个定义,更针对提供了不同粒度的保护(见图1(c))。此外我们也给出了在图学习场景下合理的DP定义:

34e733fc06c14a3a64f488ccbeee8b2d.png

其重点在于若我们要预测节点的标签,我们便不会"保护"其相关信息(i.e., 节点不会在邻近数据集中被取代)。这是对于用户而言,对他自己保护其自身数据信息是没有意义的。

一般与解耦DPGNN设计与理论分析

4111fb644497f2b5829b60d02a48f6bb.png

图2:GAP为之前的DPGNN SOTA,其设计是基于一般图卷积,DPDGC为我们基于解耦图卷积概念提出的DPGNN。

直观来说,对于k-neighbor GDP的隐私条件下,一个有效的DPGNN对于较小的k应该具有较小的敏感度(sensitivity), 因此应该只需要加入较小的隐私噪声。然而我们的GDP分析指出一般的图卷积设计(如GAP,见图2)的敏感度并不会随着k下降而下降(见图1(d)),且会与最大节点度(node degree)成正比。与之相对,我们提出的解耦图卷积设计DPDGC(见图2),其敏感度可以随着k下降而降低,并与最大节点度无关(见图1(e))!

完整分析请参阅我们的paper,这里只提供一个大致的理论思路。传统的图卷积设计包含了  操作,也就是直接于图上传播节点特征信息,因此,的同时变化不可避免得会造成很大敏感度。与之相对的,我们解耦图卷积设计为先学一个DP的节点嵌入(embedding) ,然后只做操作,之后才与节点特征结合。这样解耦设计的好处为可以利用DP的组合定理(composition theorem),因此在分析敏感度时只有会变化,为不变的。因此最后的敏感度相比操作会小很多。

实验结果

09aff4ba2d20fddfa8d5f98d15836d59.png表1

2d8fa78ced19daa6a3017385a2e615ff.png

图3

完整的实验讨论分析请见paper,这里主要点出主要几个结果。

✦ 我们解耦设计的DPDGC一般来说具有最好的隐私-性能平衡,且能针对k-neighbor GDP下不同的k有更好的性能表现。见表1,图3右上以及左下。

✦ 我们实验指出node-level GDP的隐私要求确实有可能太过侷限,例如在部分数据集上DP-MLP (完全不利用图信息)反而具有最好的性能表现。见表1与图3左下。

✦ 我们猜测其原因为由于利用图拓朴信息需要加入额外的噪声,当图拓朴信息对于性能帮助过弱的情况下,直接不用图拓朴信息(如DP-MLP)为更优策略。

✦ 我们于cSBM (contextual stochastic blockmodel)上的实验验证了我们的想法,其中的大小代表图信息与节点特征信息的"比例",当代表信息完全集中于图拓朴上而代表信息完全集中于节点特征上,可以看到当接近于0时的确DP-MLP具有最好的表现,而当足够大时DP-GNN则能有更好的性能。见图3右下。

结语与未来方向

我们的工作完整的建立DP for GNN的分析框架,以及多粒度拓朴保护下的定义,根据我们的结果,我们可以发现在要求GDP隐私保护下,现有性能最好的GNN设计未必是最优的,一个很有趣的未来方向便是GNN的性能-隐私共同设计(privacy-utility co-design),另外我们的实验结果也意外地指出,在极端情况下DP-MLP的性能表现是高过现有DPGNN设计的,另一个有趣的问题便是我们能否设计出一个新的DPGNN,使其在所有情况下都能至少不差于DP-MLP?最后,我们也希望GNN与DP社群能够多加合作,一起推进GNN隐私保护的进程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值