随手写一下阅读笔记
目录
Knowledge-Guided Pre-training Strategy 知识引导的预训练策略
本文做了什么:
- 提出KGPT,一个新的自监督学习框架,由一个新的图结构transformer LiGHT和一个知识指引的预训练策略组成,以此减轻目前分子图结构强化学习中的问题,改进了在下游分子性质预测任务中的表现
- 一系列测试,证明KGPT在某些分子性质预测任务上好用.
文章先讨论了自监督学习的问题:
一是预训练任务定义不合理
预训练任务主要分为两种:生成式和对比学习。生成方法遵循NLP领域的掩蔽语言模型,例如BERT,通过掩蔽一部分分子图,例如,边、节点或子图,然后学习检索原始图。对比学习:无监督学习中,在没有标签的情况下,通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。如:图像的对比学习
现有分子图上的对比学习方法:进行节点替换、节点删除和边扰动等策略生成增广图,然后在嵌入空间中学习,将增广图与对应的原始分子图进行匹配。但是不同于图像增强(例如,缩放和旋转),分子图的一个小的修改可以极大地改变了相应分子的特性。
——现有的对比学习方法不好,所以本文要用生成式
二是模型容量有限
化学空间巨大,需要一个高容量的模型来捕获足够的信息。基于Transformer的模型已被证明在这些领域具有出色的预测性能,然而,将基于Transformer的结构应用于分子图的自监督学习的研究还很少。以往定义的分子图上的自监督学习方法大多采用图同构网络(Graph Isomorphism Network,GIN )等GNNs作为主干网络,模型容量有限,