阅读更多,欢迎关注公众号:论文收割机(paper_reader)
因为排版问题,很多图片和公式无法直接显示,欢迎关注我们的公众号点击目录来阅读原文。
Strategies for Pre-training Graph Neural Networks, ICLR 2020
引言
预训练是指通过在一个数据充足的任务上去训练模型,然后再用目标任务的数据集去继续调优(fine-tune)这个模型。预训练模型最近在很多任务上取得了重大的进展,包括计算机视觉和自然语言处理。本文主要将介绍今年关于在图神经网络上如何进行预训练的工作。这篇工作发表在ICLR 2020上,由斯坦福大学Jure Leskovec组完成。
背景
预训练是迁移学习中的一种策略,通过训练一个数据量充足的相关任务来使模型参数达到一个较优的初始值,再输入我们目标数据集来训练当前任务。典型的预训练模型是自然语言处理中的Word2Vec,Word2Vec模型在大规模文本数据集上训练每一个词语的表达,然后我们就可以用这些词语的表达来进一步完成别的任务,比如句子表达等。
我们使用预训练模型主要是因为数据集上的不均衡,有些数据集数据量很大,有些却很小。还有一些任务数据标注很昂贵,所以大部分数据没有标签,只有一小部分数据是有标签的。这种情况在化学和生物的图数据集上尤为明显。这些数据集一方面需要花费大量的时间和资源去标注,另一方面还会存在训练集和测试集数据分布差距过大的情况。因此,预训练有解决这些问题的潜力,通过在不同任务或不同数据集上进行预训练来提高数据量和提高模型的鲁棒性。
然而,在图神经网络上进行预训练存在着一些困难的挑战。过去一些研究表明,在这些图数据集上用其他数据集进行预训练并不是一定会取得很好的效果,反而有时候进行预训练会导致模型效果变差,我们称这种现象会负迁移(negative transfer)。因此在进行预训练之前一般需要用专家知识来细致的选择相关的任务以及数据集