GraSeq: Graph and Sequence Fusion Learning for Molecular Property Prediction

GraSeq: Graph and Sequence Fusion Learning for Molecular Property Prediction

基本信息

论文来自:ACM CIKM会议

博客贡献人

徐宁

作者

Zhichun Guo, Wenhao Yu, Chuxu Zhang, Meng Jiang, Nitesh V. Chawla

标签

GraSeq: Graph and Sequence Fusion Learning for Molecular Property Prediction

摘要

    近年来,随着深度学习技术的发展,分子表征学习–使分子结构的发现和表征自动化–引起了化学家和机器学习研究者的广泛关注。 深度学习可以促进多种下游应用,包括生物性质预测、化学反应预测等。尽管目前的SMILES字符串或分子图的分子表示学习算法(分别通过序列建模和图神经网络)取得了很好的结果,但还没有将这两种方法在保留分子特征(如原子团簇、化学键)方面的能力进行集成以进一步改进。 在本文中,我们提出了一个用于分子性质预测的联合图和序列表示学习模型GRASEQ。 具体来说,Graseq将图神经网络和递归神经网络相结合,分别用于两种类型的分子输入的建模。 另外,利用无监督重构的多任务损失和各种下游任务,利用有限大小的标记数据集对其进行训练。 在各种化学性质预测测试中,我们证明我们的GRASEQ模型比现有的方法取得了更好的性能。

问题定义

  • 模型定义
        设 G = ( v , e ) G=(v,e) G=(v,e)表示一个分子图,其中节点属性表示为 X v    f o r    v ∈ V X_v \ \ for \ \ v \in V Xv  for  vV,边属性表示为 e u v    f o r    ( u , v ) ∈ ε e_{uv} \ \ for \ \ (u,v) \in \varepsilon euv  for  (u,v)ε。即分子图中的节点表示一个化学原子,边表示两个化学原子间的化学键。一个分子也可以表示为一个序列 S S S,其中的每一个 s ∈ S s \in S sS都是与图中的一个特定节点相关联的原子。

  • 分子性质预测问题
        给定一组分子 M = { M i } i = 1 ∣ M ∣ \textbf{M}={\{M_i\}}^{|M|}_{i=1} M={Mi}i=1M,其中每个分子 M ∈ M M∈\textbf{M} MM是其分子图和分子序列的并集,它们的标号为 y = { y i } i = 1 ∣ M ∣ y={\{y_i\}}^{|M|}_{i=1} y={yi}i=1M,在特定的下游任务中,问题是学习一个用于预测每个分子标号(性质)的分子表示向量H,即求一个函数: f : M → y f:M→y f:My

方法

GRASEQ模型

GRASEQ模型框架图

在这里插入图片描述

图1. GRASEQ模型框架图
GRASEQ方法描述

    GRASEQ模型由四个部分组成:第一,用图神经网络对分子图进行编码; 二是应用LanguageModel对分子序列进行编码; 第三,采用融合层将输出图嵌入(GE)和序列嵌入(SE)相结合; 最后,输出层将多个下游任务作为监督任务,并与分子重建任务相结合。

GRASEQ方法流程:
GRASEQ是一个分为四个部分组成的模型,总体流程如下:
(1)在分子输入阶段,分别输入分子序列和分子图。
(2)在图层中,利用分子图通过GNN获得嵌入信息传递到序列层和融合层中
(3)在序列层, 将从图层获得的嵌入信息和分子输出阶段获得的分子序列放入序列编码器中,以学习序列所表示的分子的上下文信息。
(4)在融合层,将图层和序列层的输出进行融合。
(5)在输出层,将分子重建作为一个自监督任务,通过多个任务构建损失函数和多个下游任务对模型进行训练。

Graph Encoding

    在分子图中,每个节点代表一个原子,每个边代表两个原子之间的化学键。 根据相应化学键的类型,边缘类型可分为单、双、三种,并与不同的权重 W W W相关联。 如图1(a)所示,图神经网络通常使用邻域聚集来迭代更新一个节点的表示,通过聚集其邻近节点和边的表示。 迭代之后,节点表示 h v ( k ) h^{(k)}_v hv(k)能够捕获其 k − h o p k-hop khop邻域内的结构信息。 形式上,从图神经网络获得的节点表示 h v ( k ) h^{(k)}_v hv(k)的第 k k k层表示为:
h N ( v ) ( k ) = A G G R E G A T E k ( w u v ⋅ h u ( k − 1 ) , ∀ u ∈ N ( v ) ) \textbf{h}^{(k)}_{N_{(v)}} = {AGGREGATE}_k(\textbf{w}_{uv} \cdot \textbf{h}^{(k-1)}_u, \forall u \in N_{(v)}) hN(v)(k)=AGGREGATEk(wuvhu(k1),uN(v))
h v ( k ) = σ ( W ( k ) ⋅ C O N C A T ( h v ( k − 1 ) , h N ( v ) ( k ) ) ) \textbf{h}^{(k)}_v = \sigma(\textbf{W}^{(k)} \cdot CONCAT(\textbf{h}^{(k-1)}_v,\textbf{h}^{(k)}_{N_{(v)}} )) hv(k)=σ(W(k)CONCAT(hv(k1),hN(v)(k)))

Sequence Encoding

    因为Smiles字符串和分子图之间的对应关系,将分子表示为序列 S S S,再将序列中的每一项 s ∈ S s \in S sS和分子图中的一个特定节点相关联,通过函数 ψ ( ⋅ ) \psi(\cdot) ψ()将在Graph Encoding得到的嵌入映射到序列中的原子。再利用BI-LSTM对每个节点的表示进行编码并学习分子的上下文信息,最终输出序列嵌入。
h s = [ L S T M ← ( ψ ( h v ) ) ⊕ L S T M ⃗ ( ψ ( h v ) ) ] \textbf{h}_s = [\mathop{LSTM}\limits ^{\leftarrow}(\psi(\textbf{h}_v)) \oplus \vec {LSTM}(\psi(\textbf{h}_v)) ] hs=[LSTM(ψ(hv))LSTM (ψ(hv))]
h s \textbf{h}_s hs表示上下文表示。

Fusion Layer

    该层的主要作用即为将图嵌入的结果 h v \textbf{h}_v hv和序列嵌入的结果 h s \textbf{h}_s hs通过一个维度融合门 F F F结合起来, F F F是由sigmoid激活函数完成的,用于对表示的两个部分进行编码
F = s i g m o i d ( W 1 ⋅ h G + W 2 ⋅ h S + b ) F = sigmoid(\textbf{W}_1 \cdot \textbf{h}_G + \textbf{W}_2 \cdot \textbf{h}_S + b) F=sigmoid(W1hG+W2hS+b)
其中 h G \textbf{h}_G hG h S \textbf{h}_S hS是通过连接所有 h v \textbf{h}_v hv h s \textbf{h}_s hs的整个分子图和分子序列的向量矩阵, W 1 \textbf{W}_1 W1, W 2 \textbf{W}_2 W2, b b b都是可训练参数,即最终融合层融合图嵌入和序列嵌入得到分子最终嵌入的公式为:
h M = F ⊙ h G + ( 1 − F ) ⊙ h s \textbf{h}_M = F \odot \textbf{h}_G + (1-F) \odot \textbf{h}_s hM=FhG+(1F)hs

Output Layer

最后的输出层,利用损失函数对参数进行训练来优化函数,其中损失函数分为两部分:标签损失和重建损失。重建损失即将融合层的输出 h M h_M hM作为解码器的输入,再通过编码器进行分子重构,再将输入输出的差异作为损失函数。标签损失则是在分子性质预测的下游任务中,对多个下游任务的正确标签的负似然。 L l a b e l = − ∑ M ∈ M ∑ T ∈ T s o f t m a x ( W T ⋅ h M + b ) L_{label} = - \sum_{M \in \textbf{M}} \sum_{T \in \textbf{T}}softmax(\textbf{W}_T \cdot \textbf{h}_M + \textbf{b}) Llabel=MMTTsoftmax(WThM+b)
最终的损失函数即为:
L = L l a b l e + α L r e c o n s t r u c t i o n L = L_{lable} + \alpha L_{reconstruction} L=Llable+αLreconstruction
其中 α \alpha α是用于控制两个损失函数权重的权衡因子。

实验

实验设置

数据集

ZINC

用于虚拟筛选的分子化合物的公共访问数据库,包含超过两千万个可用分子
从与ZINC反应的806991个分子中,提取出两个下游数据集:LopP和FDA

MoleculeNet

用于分子机器学习的大规模基准数据集
主要使用四个二元分类数据集,BBBP,BACE,Tox21,ToxCast

对比的基准方法
  • GraphSAGE

通过对相邻节点的嵌入进行采样和聚合来生成节点的嵌入,从而有效地获取图的信息。也是本文图层这一阶段的图编码器。

  • GCN

它是一种广泛使用的基于图的模型,包含有效的卷积神经网络组件。GCN通过同时学习局部图结构和节点特征,优于各种模型。

  • Seq2SeqFP

Seq2Seq指纹模型是基于Seq2Seq模型的,Seq2Seq模型是一种典型的自然语言处理模型。它使用无监督的方法来学习分子表达。

  • Mol2vec

Mol2vec通过Word2Vec学习分子结构的矢量表示。相似的分子结构具有相似的载体表示。化合物的矢量表示可以通过组合其分子亚结构的矢量来获得。

  • Seq3SeqFP

它基于Seq2Seq模型。它定义了一个包含自我恢复损失和推理任务损失的损失函数。该模型类似于我们方法中的序列编码器部分。

  • GIN

图同构网络,已经被证明具有很高的表示性能。

  • SMILES-BERT

SMILES-BERT提出了一个包含注意机制的半监督模型。它利用了transformer层,并在多个ZINC数据集上获得了最先进的性能。

  • PreGNN

采用自监督方法对神经网络进行预训练,使神经网络同时学习有用的局部和全局表示。它在分子性质预测方面达到了最先进的性能。

消融实验的对比方法

    为了可以公平地比较不同的方法,所以每个实验使用监督输出层。重构层的实验将通过重构损失和下游任务损失来训练。

  • SeqRec

是由下游任务损失和分子重构损失训练的Seq2Seq模型。

-GraSeq

本文模型,由三部分组成:图形编码器、序列编码器和输出层。

  • GraSeq-R

基于GraSeq,并具有额外的分子重建作为自监督任务

-GraSeq-F

该算法在GraSeq的基础上增加了融合层,融合了图层和序列层的输出。

-GraSeq-RF

基于GraSeq,具有分子重构层和融合层。

实验结果及分析

评价标准

    ROC:接收者操作特征曲线
    AUC:ROC曲线下的面积
    Accuracy:准确率

实验结果分析
基准实验对比
表1.4个MoleculeNet 数据集上GraSeq和基准模型之间预测结果(AUC)的比较。

在这里插入图片描述
    在MoleculeNeT数据集上,本文方法与最佳基准方法相比在BBBP,Tox21,ToxCast数据集上AUC评分都有提高,例外的在BACE数据集上AUC评分低于PreGNN方法,但是PreGNN采取了多种预训练策略,代价较为昂贵,且PreDNN并没有利用序列信息,因此在其他数据集上的效果远低于本文方法。

表2.LogP数据集上GraSeq和最先进序列模型的准确度比较。

在这里插入图片描述
    在LogP训练集上,本文模型与最新的序列的分子表征学习模型比较,其准确度也是高于序列分子表征学习模型。
    因此总的来说,本文模型分别对比于基于序列的模型和基于图的模型,其在数据集上的效果,本文模型都优于这一系列的基准模型,表明这两种模型都不能像我们这样有效地使用来自图和序列表示的信息。

融合实验对比
表3.6个不同下游任务数据集上不同融合选择(GraSeq、GraSeq-R、GraSeq-F、GraSeq-RF)和基于单一表示的模型(GraphSAGE、Seq2seq、SeqRec)的AUC。

在这里插入图片描述

    表中GE,SE,FL,RL以此代表图形嵌入,序列嵌入,融合层,重构层。
    首先通过表3可以发现,与基于图的模型、基于序列的模型和序列重建模型相比,本文提出的GraSeq模型表现出更好的性能,GraSeq系列模型的最佳结果优于最佳单输入模型,表明了融合基于图的模型和基于序列的模型可以有效地利用两种类型的分子表征,并从中捕获重要信息
    其次,本文提出的方法的四种变体中,GraSeq-F在四个数据集(BACE、BBBP、Toxcast和FDA)上表现最好。GraSeq和GraSeq-RF分别在Tox 21和LogP上表现最佳。这是因为GraSeq-F在序列编码器的顶部添加了一个融合层,这可以被视为一种增强或残差学习,允许序列编码器补偿图形编码器未能学习的内容(例如同位素)。但并没有添加重构层,因为变分编码器的重构损失可以通过最小化变分下界来提高编码器的稳定性。然而,由于训练数据有限,分子重构难以有效学习,导致模型对下游任务学习关注不足。

标签敏感性分析

    分子特性预测的一个挑战是标记数据的有限大小。本文的方法中在输出层定义了一个包含重建损失和下游任务损失的多任务损失函数,因为监督损失比非监督损失(通过重构)更加的直接,所以下游任务损失就更加重要。因此,较低的标签丢失率总是导致较高的预测性能。而不同的训练集的标签缺失率是不同的,训练集标签缺失率的高低影响了数据量的大小,从而导致不同的训练集的预测性能不同,数据量也可能有助于减少重建损失。

相关知识链接

下载

数据集下载:ZINCMoleculeNet

基准实验涉及的论文

GraphSAGE
GCN
Seq2SeqFP
Mol2vec
Seq3SeqFP
GIN
SMILES-BERT
PreGNN

方法组件涉及的论文

GCNS
Bi-LSTM
Seq2Seq

总结

亮点

  • 同时利用图和序列信息来学习分子的有效表示,并做到将序列信息与图信息中的分子结构一一对应,从而能够同时获取到两种分子表示形态的有效信息。
  • 从实验结果验证了方法互补优势的性能改进,即证明了互补性,从两个不同的表征中提取的信息是互补的而不是相反的。
  • 较早的提出了多模态融合的概念,改变了以往单一类型信息进行分子表征表示的认知。

不足

  • 因为在序列层提取分子序列特征时,同时融入了SMILES串信息和图嵌入信息,之后再将图层输出和序列层输出进行融合,可能会因为特征较为相似而并没有达到不同模态信息互补融合的目的,实验效果较差。

启发

  • 可以在本文的基础上,改变不同模态的信息的提取方式,避免不同模态表示的分子特征较早融合在一起,影响了之后模态信息融合的效果。

BibTex

@article{osti_10231955,
place = {Country unknown/Code not available}, title = {GraSeq: Graph and Sequence Fusion Learning for Molecular Property Prediction}, 
url = {https://par.nsf.gov/biblio/10231955}, 
DOI = {10.1145/3340531.3411981}, 
abstractNote = {With the recent advancement of deep learning, molecular representation learning -- automating the discovery of feature representation of molecular structure, has attracted significant attention from both chemists and machine learning researchers. Deep learning can facilitate a variety of downstream applications, including bio-property prediction, chemical reaction prediction, etc. Despite the fact that current SMILES string or molecular graph molecular representation learning algorithms (via sequence modeling and graph neural networks, respectively) have achieved promising results, there is no work to integrate the capabilities of both approaches in preserving molecular characteristics (e.g, atomic cluster, chemical bond) for further improvement. In this paper, we propose GraSeq, a joint graph and sequence representation learning model for molecular property prediction. Specifically, GraSeq makes a complementary combination of graph neural networks and recurrent neural networks for modeling two types of molecular inputs, respectively. In addition, it is trained by the multitask loss of unsupervised reconstruction and various downstream tasks, using limited size of labeled datasets. In a variety of chemical property prediction tests, we demonstrate that our GraSeq model achieves better performance than state-of-the-art approaches.}, 
journal = {GraSeq: Graph and Sequence Fusion Learning for Molecular Property Prediction}, 
author = {Guo, Zhichun and Yu, Wenhao and Zhang, Chuxu and Jiang, Meng and Chawla, Nitesh V.}, }

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值