点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击 阅读原文 观看作者讲解回放!
作者简介
易璐,中国人民大学高瓴人工智能学院三年级博士生,师从魏哲巍教授,2022年毕业于北京邮电大学计算机学院。她的研究兴趣包括图遗忘学习、动态图学习、高效图算法。如有任何交流或合作机会,欢迎通过邮箱 yilu@ruc.edu.cn联系。
太长不看版(TL;DR)
随着图神经网络(GNNs)在涉及敏感用户数据的应用中的广泛应用,图遗忘(Graph Unlearning)已成为确保隐私保护的关键研究领域。现有的理论完备图遗忘方法(Certified Graph Unlearning)虽然提供了强大的隐私保证,但在大规模图上却行不通,因为它们需要为每个遗忘请求重新计算图传播,而图传播在大图上需要花费大量时间计算。为此,我们提出了ScaleGUN,首个能够应用到十亿级边图的大规模有理论保证的图遗忘方法。ScaleGUN将近似图传播技术引入有理论保证的图遗忘学习,提高图传播的效率,并通过理论推导,得到节点特征、边和节点三种遗忘场景的理论误差上界,从而保证了方法的理论完备性。实验表明,ScaleGUN在十亿级边图上的遗忘效率显著提升,仅需20秒即可完成5000条边的随机删除请求,而传统方法需要近2小时。
OpenReview:
https://openreview.net/forum?id=pPyJyeLriR
ArXiv:
https://arxiv.org/abs/2408.09212
图遗忘学习背景介绍
随着图神经网络(GNNs)在推荐系统、社交网络、金融预测等领域的广泛应用,如何保护这些场景下的用户隐私成为一个日益重要的问题。由于用户敏感数据可能用于图神经网络模型训练,所以隐私保护的要求不仅仅在于把数据库的用户数据删除,更要从模型中删除用户数据,使得模型与从未基于这些被删除数据训练出来的模型尽可能相近。基于这样的需求,图遗忘学习应运而生。所谓“图遗忘学习”,其核心目标是设计一个数据遗忘方法,能够从模型中高效地遗忘指定数据,并尽可能保障遗忘效果。
有理论保证的遗忘学习算法
遗忘学习中,有一类算法致力于通过理论保证来确保遗忘效果,即有理论保证的遗忘学习(Certified unlearning或Certified removal)。有理论保证的遗忘学习会从概率分布上要求删除后的新模型与从未见过删除数据训练而得的模型关于参数相近。数学定义如下:
现有瓶颈:难以拓展到大规模图上
现有有理论保证的图遗忘学习方法流程如算法1所示。我们发现,在大图上重新计算图传播(紫色字样部分)才是效率瓶颈,而非模型训练。我们在包含十亿边的obgn-papers100M上实验,使用的是2层的SGC模型,每次遗忘请求是随机选择的5000条边。如图1(a)所示,我们发现每次遗忘学习中重新计算图传播所需时间高达6000秒,而基于图传播后的节点表示去更新模型参数(绿色字样部分),仅需要不超过20秒。换言之,若想将有理论保证的图遗忘学习真正应用到现实生活中的大规模图上,必须解决图传播耗时过高这个问题。在图学习领域,已经有非常多大规模图学习的研究工作,其核心技术就是用以解决低效的图传播,这些技术是否能直接应用到有理论保证的图遗忘学习呢?算法1. 现有有理论保证的图遗忘学习方法流程
图1. 现有方法和ScaleGUN在obgn-papers100M上对2层SGC模型删除5000随机边各模块所需时间
答案是不行的。这是因为,现有这些大规模图学习技术并没有提供误差保证,应用到图遗忘学习中是否能保证图遗忘学习要求的理论保证是不确定的;即使有的方法提供了对节点表示的误差保证,这些近似的节点表示会如何影响图遗忘学习的理论保证也是未知的问题。
这篇工作的核心贡献就在于解决以上疑问。我们成功将图传播所需时间大幅度减小,并仍能提供图遗忘学习的理论保证。图1(b)是我们的方法ScaleGUN的结果,在相同场景下,对于每次删除情况,10秒内即可完成图传播。
解决方案:ScaleGUN
ScaleGUN的解决方案分为两个部分。第一部分是使用动态局部传播技术使得模型在应对删除请求时可快速更新节点表示矩阵,从而最大程度上减少计算图传播的时间。我们将现有的基于Personalized PageRank的动态图传播技术拓展到Generalized PageRank上,实现了首个层级传播范式上的动态局部传播技术。第二部分是经过严格的理论推导,我们得出结论:第一部分引入的近似误差仅会增加一部分模型误差,但总体模型误差仍有界,这使得ScaleGUN在高效处理图传播计算的同时仍能够提供遗忘学习的理论保证。Generalized PageRank上动态局部传播技术
目前已有面向Personalized PageRank传播范式的动态图传播技术,其核心思想是借助Forward Push来达到动态更新效率和节点表示的精度。我们将该思想拓展到Generalized PageRank传播范式上,实现了首个层级传播范式上的动态局部传播技术。如此,当有节点、节点特征、边的删除请求时,我们不需要在全图上进行重传播,仅需在所删除节点/边的邻域内进行局部更新即可,并能够提供如下关于节点表示误差的理论保证:
ScaleGUN的模型误差分析现有有理论保证的遗忘学习研究表明,我们需要证明新模型在新数据集上的损失函数的梯度二范数(可理解为模型误差)在最坏情况下有界,即可提供相应的遗忘学习保证:
如何基于动态局部传播技术得到的近似节点表示来计算模型误差的最坏情况上界呢?难点在于,模型误差需要基于精确的节点表示进行计算,而由于利用上述高效的动态局部传播技术,我们仅能获得近似的节点表示。
我们巧妙地利用了动态局部传播技术框架来解决这个问题。一方面,动态局部传播技术提供了精确节点表示和近似节点表示之间的误差保证;另一方面,动态局部传播技术框架可以方便我们获取数据删除前后的精确节点表示之间的差。因此,我们推导出节点特征、节点、边三种删除场景下的最坏情况上界。以下是边删除的最坏情况上界:
除此之外,我们还能获得数据依赖的模型误差上界,可用于实际遗忘学习过程中判断是否需要重训练:
实验
我们首先验证了理论推导结果的正确性,如图2所示:图2.模型误差的理论最坏情况上界、数据依赖上界和真实模型误差。
接下来,我们从模型表现(节点分类正确率)、删除效率、隐私保护效果三个方面验证ScaleGUN的效果。表1展示了线性模型上批量边删除的正确率、图传播时间、总时间,可见ScaleGUN能够在保持正确率和重训练基本一致的条件下极大地减少了遗忘学习的时间消耗。表1. 线性模型上批量边删除的正确率、图传播时间、总时间。
图3展示了线性模型上各遗忘学习方法的正确率随删除掉的攻击边的数量增多而上升,可见ScaleGUN的规律基本和重训练一致,说明ScaleGUN有效地删除了信息,满足了隐私保护的需求。总之,ScaleGUN的提出为大规模图数据遗忘提供了一种高效且有理论保证的解决方案,不仅满足了用户隐私保护的需求,还为图神经网络在实际应用中的广泛部署铺平了道路。
论文代码已开源:https://github.com/luyi256/ScaleGUN
近期活动推荐
CVPR 2025一作讲者招募中,欢迎新老朋友来预讲会相聚!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看作者讲解回放!