摘要
分子性质预测可以指导药物开发过程中的分子设计和优化。由于分子本质上是图结构数据,图学习大大提高了分子性质预测任务。然而,许多现有的基于图的方法是为同构图中的低阶节点交互而设计的,忽略了不同类型的原子节点或边。在本文中,我们建议将一个分子建模为一个异构图,并利用元路径来捕捉化学官能团的潜在特征。为了保留元路径揭示的化学环境,我们构建了基于元路径的连通性,并根据关系类型将异构图分解为子图。此外,还设计了分层关注策略,在节点级和关系级对异构信息进行聚合。因此,我们的方法更自然,更适合于学习原子节点之间复杂的相互作用和有效的分子指纹。我们在公共分子数据集上评估了我们的模型,实验结果表明我们的模型与现有方法相比具有竞争力。
1介绍
药物研发是一个耗时、复杂和昂贵的过程。在药物发现管道中,分子性质预测是自动筛选具有理想性质的靶标药物的基本任务之一[1]。随着深度学习的发展,分子表示学习比基于特征的方法显示出灵活性和有效性,并在分子性质预测任务中得到越来越多的关注,如分子分类[2,3]、分子性质回归[4,5,1]和分子生成[6]。
早些年,一些研究使用SMILES (Simplified Molecular Input Line Entry System,简化分子输入行输入系统)[3],这是一种类似顺序文本的表示,用于输入rnn (Recurrent Neural Networks,循环神经网络)或cnn (Convolutional Neural Networks,卷积神经网络)。然而,这种一维序列数据部分丢失了分子的拓扑信息,导致性能受限。
随着最近图学习方法的成功[7-9],解决这一任务的基于图的模型得到了越来越多的关注。把原子当作节点,把化学键当作边,可以很自然地把分子建模成一个图。因此,我们可以使用图神经网络(gnn)来学习分子指纹。gnn是基于灵活的消息传递层构建的,其中每个嵌入的节点聚合来自相邻节点的消息[10]。因此,可以从原子级消息传播的角度来学习分子的特征表示。
然而,大多数现有的基于gnn的方法[1]只考虑同质图中相邻原子的相互作用,其中节点类型表示和边缘类型表示由线性层投影,并且仅由来自最近节点的消息交互更新,忽略了来自不同化学官能团的复杂异构原子之间的高阶相互作用。因此,一个问题是如何为这种相互作用建模。我们的答案是异构信息网络上的元路径[11]。与同质图相比,异构信息网络(HINs)[12]由于具有学习多种节点类型和关系类型的灵活能力,因此更适合于分子建模。
异构信息网络(或异构图)包含多种类型的节点或关系,被广泛用于挖掘复杂的语义信息[12]。因此,使用HIN对分子进行建模将允许基于图的模型更多地了解原子之间的相互作用。
近年来,人们提出了各种异构图神经网络(hgnn)[13,14]来学习HINs的低维表示。学习到的表示保留了异构信息,可以进一步用于下游任务,如节点分类和链路预测。
在异构图学习方法中,元路径是捕获HINs结构和语义特征的经典方法。元路径(meta - path)[11,15]是HIN任务中的一种强大工具,型和它可以用来描述对象之间更复杂的关系。元路径是有序描述节点类边缘类型的复合关系序列[15]。以图1为例&#x