优秀博士学位论文分享：图表示学习的谱理论与自监督学习

audyxiao001

已于 2024-06-07 11:23:30 修改

阅读量731

点赞数 22

文章标签：图表示学习自监督学习深度学习人工智能

于 2024-05-20 17:42:11 首次发布

本文链接：https://blog.csdn.net/audyxiao001/article/details/139069359

版权

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平，本公众号近期将推出“优秀博士学位论文分享”系列文章，对人工智能领域2023年优秀博士学位论文进行介绍和分享，方便广大读者了解人工智能领域最前沿的研究进展。

“CCF博士学位论文激励计划”（原中国计算机学会优秀博士学位论文奖）是一项旨在表彰中国计算机科学领域博士研究生的杰出贡献的激励计划。该奖项的目的是促进学术研究的卓越性，并鼓励在计算机科学及其技术各子学科中产出高质量的博士论文。

本推文主要介绍清华大学裘捷中的博士论文《图表示学习的谱理论与自监督学习》，论文从多个角度研究图表示学习，包括节点嵌入的谱理论，基于谱理论的大规模节点嵌入的算法，图神经网络的自监督学习算法和图表示学习在社会影响力预测中的应用。该论文获得了2023年“CCF博士学位论文激励计划”提名。此外，本推文还对其导师唐杰教授及其实验室进行了介绍，以方便读者了解更多相关信息。本文的作者为黄星宇，审校为邱雪和许东舟。

一、论文介绍

1. 背景与挑战

图结构数据在我们身边无处不在，例如社会网络、生物网络和交通网络等。图表示学习算法的设计对图结构数据的理解、分析和推理至关重要。近年来，图表示学习得到了蓬勃发展和巨大成功。以节点嵌入和图神经网络为代表的两大类方法在计算机视觉、自然语言处理、搜索推荐、生物制药、社会计算等领域大显身手。然而，随着算法的发展和应用的多样化，图表示学习的研究也面临着理论支撑、大规模算法、可迁移自监督学习等诸多挑战。为了解决这些问题，需要深入了解和分析已有的图表示学习算法，理清其发展脉络和潜在挑战，从而推动算法的开发和领域的发展。

面临的挑战：节点嵌入缺乏理论分析。基于随机游走的节点嵌入方法主要受自然语言处理中词向量算法Word2vec的启发。虽然这种算法取得了很好的实际效果，但它们背后的工作机理却并不为人所知。这不仅阻碍了人们对算法的理解和使用（如一些超参数的确定），甚至还会影响后续新算法的开发。如何搭建这些算法和经典图谱理论的关系是一个值得研究的问题。

面临的挑战：如何设计超大规模节点嵌入算法？工业界有对超大图进行节点嵌入的需求。然而基于随机游走的方法往往无法满足这一需求。这些方法一方面需要在图上做大量随机游走采样，另一方面需要用随机梯度下降对数百GB的参数进行优化。这样的计算模式给算法和系统的设计都提出了很大的挑战，例如在GPU上进行随机梯度下降时，GPU的有限内存往往成为整个系统的瓶颈从而严重影响效率和可扩展性。如何通过算法和系统的协同设计解决超大规模的节点嵌入问题是本文解决的第二个挑战。

面临的挑战：如何利用无标签数据自监督地训练图神经网络？研究图神经网络自监督学习的可行性和有效性是论文解决的第三个挑战。目标是让图神经网络从无标注的图数据中自监督地学习结构信息，并通过微调的方式将模型迁移到下游的图学习任务上。在论文研究这一问题的同时，关于图神经网络自监督预训练的研究也慢慢涌现出来，包括分子图预训练、生成式图预训练、异构图预训练等。

面临的挑战：图表示学习的实际应用。图表示学习在许多场景中都获得了成功，但如何利用这一技术建模复杂的社会网络问题却仍有待探索。以社会影响力预测为例，该问题是社会网络分析中的一个重要的研究方向。给定社会网络的结构和用户的历史行为，目标是对个体行为受网络中其他用户行为影响的现象进行建模。论文解决的第四个挑战就是使用图表示学习建模社会影响力。

2. 方法与实验结果

（1）节点嵌入的谱理论

论文提出了节点嵌入的谱理论框架。以DeepWalk和node2vec为代表的基于随机游走采样的节点嵌入算法在许多图学习任务上获得了成功，但其背后的机理却鲜为人知。这限制了节点嵌入算法的应用和发展。论文分析了这些算法在无限采样和有限采样两种情况下的行为：在无限采样时，将这些算法统一到矩阵分解框架中，并建立起被分解矩阵和图谱理论的关系；在有限采样时，通过分析马尔科夫链上共现矩阵的收敛速度，给出了这些算法的样本有效性和时间复杂度。其中，为了对有限采样的情况进行研究，证明了马尔科夫链矩阵切诺夫界，对著名的概率论工具切诺夫界进行了推广。

图1 基于随机游走的节点嵌入方法的流程

图2 DeepWalk，LINE，PTE和node2vec算法隐式分解的矩阵

论文在人工数据集（哑铃图、连续获胜链和随机图）以及一个真实数据集（BlogCatalog图）上进行实验。证明了马尔科夫链矩阵切诺夫界，并以此为工具进一步证明了DeepWalk算法的收敛速度和样本有效性，还通过数值实验佐证了理论的正确性。

（2）基于谱理论的大规模节点嵌入算法

论文对基于随机游走的节点嵌入算法进行了深入的分析，搭建了节点嵌入的图谱理论，并给出了极限情况下DeepWalk等方法隐式分解的矩阵的具体形式。受此启发，论文首先提出了直接计算图2中矩阵并进行矩阵分解的NetMF算法。随后，为了将NetMF扩展到大图上，论文借鉴图谱理论中的随机游走矩阵多项式稀疏化的技术对NetMF进行了改造，提出了稀疏矩阵分解算法NetSMF。最后，通过进一步算法和系统的协同设计提出了LIGHTNE系统，该系统可以扩展到十亿节点和千亿条边的超大图。

图3 NetMF算法的伪代码

图4 NetSMF的系统设计

图5 LIGHTNE的系统设计

实验表明NetMF在处理大规模图数据时，能够兼顾高效性和高预测性能。通过合理设置超参数，NetMF在多标签分类任务中展现了强大的竞争力。NetSMF不仅在大图中将NetMF的可扩展性和运行效率提高了几个数量级，而且还具有和NetMF不相上下，甚至更好的预测性能。这证明了NetSMF基于图的谱稀疏化的近似算法的有效性。LIGHTNE在多个大规模图数据集中展示了卓越的性能和效率。其在Micro-F1、Macro-F1、AUC等指标上的表现优于其他基线算法，同时在计算时间和成本上也具有显著优势。LIGHTNE结合了NetSMF和ProNE的优点，通过高效的并行稀疏器构造和随机奇异值分解，实现了在大规模图数据上的高效节点嵌入。

（3）图神经网络的自监督学习算法

论文提出了图对比编码（GraphContrastiveCoding，简称GCC）框架来学习跨图的结构表示，利用对比学习的思想将图预训练任务设计为实例区分（instance discrimination）任务。它的基本思想是从输入图中采样子图，将每个采样得到的子图都视为一个独特的实例，并学习对这些实例进行编码和区分。具体来说，在设计GCC时需要回答三个问题：(1)实例是什么？(2)区分规则是什么？(3)如何对实例进行编码？

图6 图对比编码预训练和微调的整体流程

实验表明，预训练的图神经网络编码器可以直接适配到全新的图数据集和图学习任务上。更重要的是，和在具体图学习任务上单独训练的模型相比，预训练模型通过迁移预训练学习到的结构知识，实现了相似甚至是更好的性能。这证明了图结构模式的可迁移性以及GCC框架在学习这些模式方面的优越性。

（4）图表示学习在社会影响力预测中的应用

论文首先把社会影响力预测问题定义成图分类问题，然后给出基于图表示学习的图分类模型，并在现实数据上进行测试。作者提出了社会影响力预测问题的图分类建模方式，并设计了一种端到端的图表示学习方法DeepInf来自动进行社会影响力预测。

图7 DeepInf的模型框架

实验表明DeepInf在多个社交网络数据集上展示了卓越的性能和优越的预测能力，尤其是其DeepInf-GAT变体在AUC和F1等指标上显著优于其他基线算法。实验结果表明，DeepInf能够有效捕捉社会影响力的复杂性和非线性特征，验证了其在社会影响力预测任务中的有效性和高效性。

3. 结论

论文系统研究了图表示学习中的四个关键问题：节点嵌入的谱理论框架、基于谱理论的大规模节点嵌入算法、图神经网络的自监督学习算法以及图表示学习在社会影响力预测中的应用。通过深入的理论分析和广泛的实验验证，提出了多个创新性算法和系统，展示了其在多个实际应用场景中的卓越性能。未来的研究可以进一步探索图表示学习在更多复杂图结构数据中的应用，提升算法的可扩展性和自适应能力，以应对更大规模和多样化的数据挑战。

二、作者简介

裘捷中博士2012年保送清华大学学习至今，深耕数据挖掘和社会网络分析领域，师从唐杰教授。如表1所示，裘捷中博士在学业生涯中发表多篇高水平学术论文和若干专利，为获得CCF优秀博士论文打下了坚实基础。

表1 在学期间的相关学术成果

成果类型		成果	发表机构（年份）	CCF类型
学术论文	一作	LightNE:A Lightweight Graph Processing System for Network Embedding	SIGMOD（21）	CCF-A
		A Matrix Chernoff Bound for Markov Chains and Its Application to Co-occurrence Matrices	NeurIPS（20）	CCF-A
		Blockwise Self-Attention for Long Document Understanding	EMNLP（20）	CCF-B
		GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training	KDD（20）	CCF-A
		NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization	WWW（19）	CCF-A
		DeepInf: Social Influence Prediction with Deep Learning	KDD（18）	CCF-A
		Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec	WSDM（18）	CCF-B
	二作	Fast Extraction of Word Embedding from Q-contexts	CIKM（21）	CCF-B
	二作	Detecting Stress Based on Social Interactions in Social Networks	TKDE（17）	CCF-A
	本科	The Lifecycle and Cascade of WeChat Social Messaging Groups	WWW（16）	CCF-A
	本科	Modeling and Predicting Learning Behavior in MOOCs	WSDM（16）	CCF-B
专利		邀请行为预测方法及装置
		社交群组的特征获取方法及装置
		Invitation behavior prediction method and apparatus, and storage medium

三、导师介绍

唐杰，清华大学教授，博士毕业于清华大学计算机科学与技术系，专注于数据挖掘、社交网络分析和图表示学习等领域的研究。他在大规模数据分析、图神经网络及其在实际应用中的开发方面取得了多项突破，发表了多篇高影响力的学术论文，并担任多项国际顶级学术会议的程序委员会成员和主席。他的研究工作对学术界和工业界产生了深远影响，推动了数据科学与人工智能的前沿发展。若想了解更多关于唐杰教授的信息，可以访问他的个人主页：https://www.cs.tsinghua.edu.cn/info/1111/3486.htm。

四、实验室介绍

裘捷中博士为计算机软件研究所成员。计算机软件研究所是清华大学计算机科学与技术系的重要研究机构，致力于计算机软件理论、系统结构、编译技术、软件工程等领域的前沿研究。研究所汇聚了一批优秀的科研人员，承担了多项国家重大科研项目，并与国内外著名学术机构和企业保持紧密合作。该研究所在软件技术创新、人才培养和推动信息技术发展方面发挥了重要作用，取得了诸多具有国际影响力的研究成果。更多关于研究所的信息，请查阅网站：https://software.cs.tsinghua.edu.cn/。

audyxiao001

关注

22
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
优秀博士学位论文分享：图表示学习的谱理论与自监督学习

本推文介绍了2023CCF优秀博士论文《图表示学习的谱理论与自监督学习》。该论文从多个角度研究图表示学习，包括节点嵌入的谱理论，基于谱理论的大规模节点嵌入的算法，图神经网络的自监督学习算法和图表示学习在社会影响力预测中的应用。
复制链接

扫一扫