点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
李思杭:
中国科学技术大学硕士,师从何向南教授和王翔教授。研究图神经网络的预训练和泛化。
内容简介
现有的图对比学习框架中的数据强化方法可被分为两类:一类是随机破坏原图特征,这可能导致原始数据语义信息的改变;另一类则利用外源的领域知识进行指导,会导致模型的泛化能力的下降。因此,我们提出一种一种新的通用图对比学习框架,在进行数据强化时保留下原始图数据的本质特征,构建出更为有效的强化视图,从而提升预训练模型的泛化性能。
如今大量未经标注的图数据广泛分布在各个领域,下面展示了化学分子、知识图谱和社交网络等等。
而我们目前大多数的机器学习模型仍可以被看做是数据驱动的方法。为了能够充分利用这些数量巨大、却没有标注的数据,我们一般会采用上游大规模没有标签的数据进行预训练,然后再在下游小规模有标签数据上微调的模型范式。
Graph Contrastive Learning
对比学习是一种在过去数年受到机器学习社区研究者广泛关注的自监督方法,我们大多数的图对比学习框架可以被总结为两个模块的结合。
第一个模块是进行图数据的强化。我们基于原始的图数据样本来创建它的强化视图。这里需要强调的是,图这种数据和CV领域的image是有本质上的不同的。比如像image有一些强化的办法,如旋转等,并不会改变其语义信息。但是图这种数据是由节点和节点之间的边组成的,我们在强化的时候很难找到一种对应的、完全不改变语义信息的方法。所以目前图数据在强化的时候,我们往往会删除或者扰动一部分节点、边二者的属性。我们的工作主要关注的是节点label的数据强化方式,选出原始图数据样本节点集的一个子集,并保留这些子集中在原始结构已有的连接。
第二部分是在创建好强化视图之后,进行对比损失的优化。通过对对比损失函数的优化,使得同一个样本的强化视图在经过我们要预训练的图神经网络之后在超球面的投影尽可能地接近。同时使得不同样本的强化视图之间的投影尽可能地远离,尽可能地在超球面上形成一个uniform distribution,为预训练之后的下游微调提供