来源:知乎
作者:纵横
https://zhuanlan.zhihu.com/p/78466344
今年,IJCAI、CVPR、MM 上 Graph 相关的论文已经呈现井喷式的增长。相信领域内的小伙伴也都感受到了不同程度的 Peer Presure,加紧撰写或是修改论文。在相关文献中,有些文章行云流水,insight 和 GCN 的特点结合的很棒;也有些文章生硬牵强,给人一种不 make sense 的感觉。
在顺藤摸瓜梳理 GCN 的分析视角的过程中,有四个历史悠久的研究方向与 GCN 的思路异曲同工。虽然他们的光辉暂时被 GCN 掩盖,但是在优秀的 GCN 论文中,他们分析思路仍被广泛使用。
下面,我们将从简单到困难介绍这四种研究方向的基本思想、从该视角对 GCN 的理解,以及适用的领域。希望给正在写论文和找不到应用方向的小伙伴一些帮助。
PageRank —— 累计重要性
基本思想:PageRank 是一种用于量化网络中网页重要程度的算法。在 PageRank 诞生前,人们通常使用指向一个网页的网页数量来衡量该网页的重要程度(指向一个网页的网页越多,人们访问该网页的概率越大)。但是这种做法只考虑了链接(一个网页对另一个网页的指向)的数量而忽视了链接的质量,即所有链接都是同等重要的。
![91e6937151db82a10e3b883df54ea590.png](https://i-blog.csdnimg.cn/blog_migrate/b9f52cd70a65574ef646144b746af3fd.jpeg)
PageRank 解决了重要性的量化和累积问题,赋予了大流量网页更高的权重。PageRank 的做法是:
![ef40c66e1750bfb37cc5c167f8a1fa73.png](https://i-blog.csdnimg.cn/blog_migrate/5506ae95ce2f56a47cc853c8497a5980.jpeg)
1. 假设世界上总共有 4 个网页,则在不考虑链接时每个网页被访问的概率为 1/4,因此将每个网页的重要程度初始化为 1/4。将 A 网页的重要程度用 PR(A) 表示,则 PR(A)=1/4
2. 假设 A 网页共指向了 L(A) 个网页,则每个指向的重要程度(被使用的概率)为 PR(A) / L(A)
3. D 页面的重要程度可以表示为指向 D 的链接的重要程度之和,即使用下面的公式更新 D 页面的重要程度:
4. 根据所有页面新的重要程度,重复第 2、3 步,直至收敛(更新前的 PR(D) 与更新后的 PR'(D) 的差异小与某个设定的阈值)
结合GCN:考虑 GCN 中的卷积公式 ,其中
为图中每个节点的特征向量,
为图的邻接矩阵,
为度矩阵,
为训练参数(推导过程中省略)。观察
第
行的值(即图中第
个节点的特征向量是如何更新的):
可以发现 GCN 和 PageRank 的思路大同小异,只是链接的权重 被替换为了边的权值
,链接数量
被替换为了相邻边的权值之和
。但两者的本质都是通过边的权值计算节点的重要程度,并通过迭代(GCN 里是多层卷积)累积重要程度直至收敛。
适用方向:PageRank 方向的研究在大规模 Network 的分析和处理中积累了大量的研究经验,因此在大规模关系网络的分析和处理中,往往可以找到 PageRank 的相关分析进行解释。例如,在社交网络、推荐系统、团伙发现等任务中,往往可以强调 User 的重要性程度不同(关键用户、团伙头目等)。
Attention —— 查询重要性
基本思想:Attention 是一种能够进行(一般用于长上下文或状态集合中)信息抽取的网络结构。Attention 的实质是使用查询条件(query)在一个包含大量键值对(key-value)的字典中,匹配符合要求的 key 并获得对应的 value 的过程。令 query 为 ,第
个 key