分子预训练-双视图分子预训练

Dual-view Molecule Pre-training


总结

        在以往的任务中,要么用Graph,要么用SMILES进行预训练。本研究的作者提出了一种基于双视图的预训练模型DMP。DMP有两个分支:以SMILES序列为输入的Transformer分支和以Graph为输入的GNN分支。DMP除了使用MLM,还利用双视图一致性损失进行预训练,利用了分子的两个视图表示的一致性。在来自MoleculeNet的7个分子性质预测任务和3个反合成任务(即一种分子生成任务)上取得了最好的结果,证明了DMP的有效性和泛化能力。


一、Introduction

        与计算机视觉(CV)和自然语言处理(NLP)任务相比,收集生物信息学的标签数据更为昂贵和耗时。目前关于分子的预训练有两种,一种是基于SMILES,另一种是基于Graph的。几乎所有方法都只使用一种分子表示,或者仅使用GNN处理图,或者仅使用Transformer处理SMILES序列。GNN 实际上偏爱结构丰富的分子。例如,三个以上的环串联在一起,但不利于链较长的分子。相比之下,Transformer 偏爱相对较长的分子,但不偏爱具有重组的分子。它们是互补的,受此启发,作者提出了一个新模型(DMP),将这两种模型结合在一起。

        作者的主要贡献总结如下: 

  1.    第一个利用两种不同视图(即SMILES和分子图)进行分子预训练。
  2.    除MLM外,DMP还利用双视图一致性损失进行预训练,明确利用分子的两个视图之间表示的一致性。
  3.    在MoleculeNet的7个分子性质预测任务和3个逆合成任务(即一种分子生成任务)上实现SOTA,证明了DMP的有效性和泛化能力。              

二、Method

        如图2所示,一个输入分子由两个视图表示,一个是sequence视图,它是一个SMILE字符串,一个是graph视图,它是一个 2D 图形表示。将SMILE输入到Transformer中,并将graph输入到GNN中。MLM损失会被应用于Transformer和 GNN 模块。

        Transformer 分子和 GNN 模块可以输出同一个小分子的特征,因为这些特征来自同一个小分子,它们在某些潜在空间中不应该相似。受此启发,我们使用余弦相似度(cosine similarity)来衡量它们在某些l潜在空间中的相似度,并迫使两个模型最小化两种表示的差距。GNN分支采用DeeperGCN作为主干,Transformer分支采用RoBERTa。

三、Experiments

1. Molecular property prediction

        对于预训练,我们从PubChem中选择了两个子集,一个具有10M化合物,另一个具有100M化合物。在预训练后,我们在MoleculeNet的6个数据集上微调我们的模型。按照训练集(80%)、验证集(10%)和测试集(10%)划分。

          DeepChem的官方测试结果如表1所示,GROVER的测试结果如表2所示。在使用DMP进行预训练后,将Transformer分支和GNN分支的微调结果分别表示为DMPF和DMPGNN。

  1. 与以前的监督方法相比,DMPF在不同任务中的性能优于所有基线模型,这些基线模型利用了精心设计的指纹或专门设计的GNN。结果证明了使用预训练模型的有效性。
  2. 如表1的第二部分和第三部分所示,MLM损失和双视图一致性损失均有助于Transformer分支或GNN分支。
  3. 将作者的方法应用于两个Transformer分支或两个GNN分支(即表1中的“TF(×2)”和“GNN(×2)”),可以看到结果不如DMP,尽管与仅使用MLM或仅使用双视图一致性损失相比有所改进。
  4. 在Transformer分支上进行优化比在GNN分支上进行优化要好。因此,默认情况下,作者建议使用Transformer分支。
  5. DMPF在6个分类任务中的5个任务上实现了SOTA。此外,与GROVER和MPG这两个最新模型相比,DMPF在分类和回归任务方面也优于它们(见表2)。
  6. 作者集成了TF(MLM)和GNN(MLM),其中两个模型被独立训练和微调,并且它们的预测被平均。结果由“TF(MLM)+GNN(MLM)”行表示。DMPTF仍然显著优于它们。
  7. 对100万个化合物进行预训练,然后对下游任务进行微调。与对10M数据进行预训练获得的结果相比,我们观察到Transformer分支和GNN分支的改进。

2. Experiments on retrosynthesis

        除了分子分类,作者还进行了分子生成。具体而言,作者选择了逆向合成任务:给定一个不能直接获得的目标分子(即产物),想要确定几个可以合成产物的容易获得的分子(即反应物)。在USPTO-50K和USPTO-full进行实验。USPTO-50K由50K个反应组成,共有10种反应类型,USPTO-full由不含反应类型的USPTO 1976-2016的950K个清洁反应组成。其中训练、验证和测试已经提前划分,每个部分分别包含总数据的80%、10%和10%。

        基于Transformer的模型结果如表4所示。标志Transformer在未知类型设置上达到42.3%的最好精度。在使用预训练模型初始化Transformer后,精度下降到39.6%。简单地将初始化应用于序列生成可能不会产生好的结果。DMP为逆向合成带来了改进。具体而言,在USPTO-50k数据集上,当反应类型未知时,将top-1的准确率从42.3%提高到46.1%,当类型给定时,从54.2%提高到57.5%。平均而言,DMP将标准Transformer提高了2∼ 3个点。与之前的预训练模型ChemBERTa相比,在上述两个设置上的性能都优于它。在最大的数据集USPTO full上,将Transformer提高了2.1个点,在USPTO FULLE上实现了SOTA。

        基于GNN的模型结果如表5所示。通过将GNN与作者方法结合,实现了SOTA,证明了预训练的有效性。通过与GLN w /DeeperGCN的比较,可以得出结论,这种改进是由预训练带来的而不是不同的GNN模块带来的。

3. Visualization of pre-trained representations

        通过t-SNE将特征可视化,结果如图3所示。对于通过GNN预训练和Transformer预训练获得的表征,不同支架中的分子重叠并混合在一起(例如,GNN的绿色和紫色节点;Transformer的绿色和淡蓝色节点)。相反,通过DMP预训练获得的表征,不同支架中的分子被很好地分离,这表明DMP更好地捕获支架信息。就DB指数(越小越好)这一评估聚类结果的指标而言,DMP明显优于GNN预训练和Transformer预训练。 

四、Conclusions and future work

        在这项工作中,利用分子的双重视角,提出了DMP。DMP的核心思想是最大化从两个视图中提取的两个表示之间的一致性,以及预测掩码标记。我们在MoleculeNet的七项分子性质预测任务和三项反向合成任务上实现了SOTA。

        两个局限性:

  • 在我们的方法中存在Transformer分支和GNN分支,与之前的单分支预训练相比,这增加了训练成本。如何设计有效的预训练方法是一个有趣的未来方向。
  • 在下游任务中,我们使用Transformer分支和GNN分支处理所有分子。最近的研究表明,一个更好的解决方案是使用元控制器来动态地确定对单个输入使用哪个分支。

参考(更多细节见原文)

原文链接:https://doi.org/10.48550/arXiv.2106.10234

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

前世忘语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值