微信公众号“圆圆的算法笔记”,持续更新NLP、CV、搜推广干货笔记和业内前沿工作解读~
Transformer诞生于NLP领域,目前已经成为NLP中的主力模型。同时,Transformer在CV领域也逐渐显示出其超强的能力,诸如ViT、Swin Transformer、BEiT等Vision Transformer模型验证了Transformer同样适用于图像领域。然而,Transformer在图表示学习领域的发展速度明显不如NLP和CV领域。在图表示学习中,基于图卷积(GCN)的方法仍然是主力模型。
为什么Transformer难以应用到图学习场景中呢?其中一个很重要的原因在于,Transformer中的position encoding在图中很难表达。在NLP或者CV中,数据都是一维和二维的顺序结构,因此可以很自然的使用position encoding刻画元素的相对位置。然而在图中,不存在空间上的顺序,如何才能设计出图中合理的position encoding,是Transformer在图学习领域应用的一个难点。这篇文章给大家介绍一下Transformer模型在图学习领域的应用,梳理Transformer在图学习上的发展历程,看看Transformer是如何逐渐杀入图学习领域的。
1. Graph Attention Networks
最开始使用Transformer中Attention思想进行图表示学习的工作是在GRAPH ATTENTION NETWORKS(ICLR 2018)中提出的GAT,提出使用多头注意力机制学习图中节点之间的关系,来进行信息融合。和图卷积神经网络GCN相比,GAT相当于使用attention score来代替拉普