Metapath-fused heterogeneous graph network for molecular property prediction
基本信息
博客贡献人
小钻风
作者
Ying Ji , Guojia Wan , Yibing Zhan , Bo Du
摘要
分子性质预测可以指导药物开发中的分子设计和优化。由于分子本质上是图结构的数据,图学习极大地促进了分子性质预测任务。然而,许多现有的基于图的方法都是针对同构图中的低阶节点交互而设计的,忽略了不同类型的原子节点或边。本文将分子建模为异质图,并利用元路径来捕获化学官能团的潜在特征。为了保持元路径所展示的化学环境,本文构造了基于元路径的连通性,并根据关系类型将异构图分解成子图。此外,本文设计了一种层次化的注意策略,在节点级和关系级水平上聚集异质信息。因此,本文方法更加自然,更适合于学习原子节点之间复杂的相互作用和有效的分子指纹表示。本文在公共分子数据集上对模型进行了评估,实验结果表明模型是有效的,与现有的方法相比具有相当的性能。
问题定义
定义1. 异构图
G
=
(
V
,
E
)
\mathcal{G}=(V,E)
G=(V,E)包含一个节点类型映射函数
ϕ
:
V
→
V
\phi:V\rightarrow\mathcal{V}
ϕ:V→V(代表节点类型集),一个关系类型映射函数
φ
:
E
→
R
\varphi :E\rightarrow\mathcal{R}
φ:E→R(代表边类型集)。
定义2. 给定一个异构图,一个元路径
p
∈
M
p \in \mathcal{M}
p∈M被定义为这种顺序形式的路径模式:
v
1
→
φ
(
e
1
,
2
)
v
2
→
φ
(
e
2
,
3
)
.
.
.
→
φ
(
e
n
,
n
+
1
)
v
n
+
1
v_1\stackrel{\varphi(e_{1,2})}\rightarrow v_2 \stackrel{\varphi(e_{2,3})}\rightarrow...\stackrel{\varphi(e_{n,n+1})}\rightarrow v_{n+1}
v1→φ(e1,2)v2→φ(e2,3)...→φ(en,n+1)vn+1,揭示了沿路径的对象之间的组合关系,
φ
(
e
i
,
j
)
{\varphi(e_{i,j})}
φ(ei,j)表示边的关系类型。
方法
方法架构图
方法描述
第一步基于预定义的元路径模板语料库构建元路径连接;第二步根据关系类型将异构图转换为不同的同构子图。作者在每个子图上利用邻居注意力机制学习中心节点的邻居节点的注意力系数。需要注意的是,不管分子中节点类型是否相同,它们都具有相同数量的原子属性,所以它们的初始向量维度相等。接着,节点嵌入通过聚合邻居节点的信息被更新。第三步在所有子图上应用关系注意力机制学习所有类型的权重系数。然后根据关系注意力系数对隐藏嵌入进行加权求和以更新节点表示。接着,作者将节点潜在表示馈送到一个GRU层以递归地增强学习。最后,节点表示被分类或回归解码器池化为用于预测的的图级向量。
构建元路径连接
化学官能团是形成一个有机分子的基本单元,通常决定着分子的性质。作者通过构建基于元路径的连接利用这些化学结构。为了定义元路径,作者在分子数据集QM9和ZINC中使用广度优先搜索(BFS)算法收集原始元路径。如表1所示,可以从由有限的官能团组成的分子中获得有意义和不同的元路径。
实验中发现,分子数量的增加并没有导致元路径的显著增加,如图2所示。这意味着元路径数量不会爆炸,选择过程不需要太多成本。
选出的元路径语料库如表2所示。
然后,作者对所有图中每个预定义元路径模板都执行如算法1提出的图遍历算法,以获得所有的元路径实例。
每个实例都是由图的节点和关系组成的序列,该序列与对应的元路径模板匹配。对于某个元路径模板
p
∈
M
p\in\mathcal{M}
p∈M,可能在一个图中存在多个与之对应的实例。为了使同一元路径实例中的节点紧密关联,作者通过连接每个实例中的源节点和目标节点来构造元路径连通边。如图1所示,基于元路径的边(虚线边)
p
p
p被视为连接邻居节点
v
i
v_i
vi和
v
j
v_j
vj的子图级的附加边。
通过构建基于元路径的连接,元路径实例上的节点之间的关联得到了丰富和加强。官能团所包含的原子可以相互传递信息,即使它们在原始图中相距很远。此外,通过将元路径连接作为额外的关系类型,可以在消息传递过程中考虑复合路径结构。
层次化注意力
邻居注意力机制
相邻节点通常会对其中心节点产生不同的影响。在这里,作者使用一种自我注意力策略来学习相邻节点的不同权重。根据化学知识,官能团通常决定分子的性质。在一个官能团中,有不同原子类型的节点,这些节点对官能团的性质具有不同的重要性。因此,邻居注意力机制关注的目标是在每个官能团子图中的特征传递和聚合。
首先,作者根据关系类型将整个图分解成不同的关系子图。每个关系子图只包含一种关系类型。然后,作者在每个子图上利用一个独立的自注意力图卷积更新节点原子级的嵌入。自注意力运算学习邻居节点对中心节点的影响权重。将学习到的权重与节点特征向量合并(例如乘法),以产生邻域消息。具体地说,给定由化学键或元路径
r
∈
R
b
o
n
d
⋃
R
M
r\in \mathcal{R}_{bond}\bigcup\mathcal{R}_{\mathcal{M}}
r∈Rbond⋃RM连接的原子对
(
v
i
,
v
j
)
(v_i,v_j)
(vi,vj),首先通过含有可学习权重
W
r
W^r
Wr的映射函数将节点特征向量转换为高维隐藏嵌入。为了学习节点与其邻居之间的相关性,作者将每个邻居的变换表示连接在一起,从而得到聚合的特征向量
m
i
←
j
m_{i\leftarrow j}
mi←j。通过在每个聚集的特征向量上乘以一个注意力向量来实现邻居注意力策略。输出是每个相邻节点的重要性分数
μ
i
←
j
\mu_{i\leftarrow j}
μi←j,它说明了邻居节
v
j
v_j
vj在关系类型
r
r
r下对节点
v
i
v_i
vi的影响。接下来,对邻居节点的重要性得分使用softmax函数得到其对应的影响系数
α
i
←
j
\alpha_{i\leftarrow j}
αi←j。设
h
i
∈
R
d
h_i\in\mathbb{R}^d
hi∈Rd是
v
i
v_i
vi的向量表示。节点邻居的注意力权重的计算可以表示如下:
h
i
=
L
i
n
e
a
r
(
x
i
)
,
W
r
=
L
i
n
e
a
r
(
e
i
j
)
h_i=Linear(x_i),W_r=Linear(e_{ij})
hi=Linear(xi),Wr=Linear(eij)
m
i
←
j
=
[
W
r
h
i
;
W
r
h
j
]
m_{i\leftarrow j}=[W_rh_i;W_rh_j]
mi←j=[Wrhi;Wrhj]
μ
i
←
j
=
R
e
L
U
(
W
m
i
←
j
)
\mu_{i\leftarrow j}=ReLU(W{m_{i\leftarrow j}})
μi←j=ReLU(Wmi←j)
α
i
←
j
=
e
x
p
(
μ
i
←
j
)
∑
u
k
∈
N
i
e
x
p
(
μ
i
←
k
)
,
\alpha_{i\leftarrow j}=\frac{exp(\mu_{i\leftarrow j})}{\sum_{u_{k}\in\mathcal{N}_i}{exp(\mu_{i\leftarrow k})}},
αi←j=∑uk∈Niexp(μi←k)exp(μi←j),
其中
x
i
x_i
xi表示原始的离散特征,
h
i
h_i
hi通过一个线性层初始化,该线性层将离散的特征向量映射到连续的向量。
e
i
j
e_{ij}
eij表示原始的边特征,也被转换和重塑为
W
r
W_r
Wr。
;
;
;表示拼接运算。
执行上面的公式后,聚合来自邻居的消息以更新节点
v
i
v_i
vi的嵌入:
h
i
=
f
(
∑
v
j
∈
N
i
α
i
←
j
W
h
j
)
,
h_i=f(\sum_{v_j\in\mathcal{N}_i}{\alpha}_{i\leftarrow j}Wh_j),
hi=f(vj∈Ni∑αi←jWhj),
其中
f
f
f是激活函数。
综上所述,将图转换为同构子图后,邻居注意力层学习邻居节点不同的权重系数,最后输出是在每个关系类型
r
r
r下的原子隐藏状态
h
r
∈
H
r
h_r\in H_r
hr∈Hr。
关系注意力
作者采用不同关系边来模拟分子中复杂的相互作用关系。重要的是,不同类型的相互作用应该对分子性质有不同的贡献。因此,需要用更高级别的加权策略来丰富学习到的隐藏节点嵌入,以指示不同交互的影响。为了处理这一任务,提出了一种关系注意力策略来衡量不同关系类型的影响。关系注意力的目标是学习不同连接类型的影响和聚合边特征与节点特征。
具体的,关系注意力输出学习的权重{
W
−
,
W
=
,
W
#
,
W
∼
W_{-},W_{=},W_{\#},W_{\sim}
W−,W=,W#,W∼}
⋃
\bigcup
⋃{
W
p
:
p
∈
M
W_p:p\in\mathcal{M}
Wp:p∈M}。首先得到每个节点嵌入的分数:
s
r
,
v
=
w
T
R
e
L
U
(
W
⋅
h
r
,
v
+
b
)
s_{r,v}=w^TReLU(W\cdot h_{r,v}+b)
sr,v=wTReLU(W⋅hr,v+b)
其中
W
W
W和
b
b
b是可学习的参数矩阵和偏置项,这些参数在所有关系类型中都是共享的。
接下来,通过平均节点嵌入的分数来总和每种关系类型的关系影响分数,使用Softmax函数对所有关系的影响分数进行归一化处理:
ω
r
=
1
∣
V
∣
∑
v
∈
V
s
r
,
v
\omega_r=\frac{1}{|V|}\sum_{v\in V}{s_{r,v}}
ωr=∣V∣1v∈V∑sr,v
β
r
=
e
x
p
(
ω
r
)
∑
i
∈
R
e
x
p
(
ω
r
)
\beta_r=\frac{exp(\omega_r)}{\sum_{i\in\mathcal{R}}{exp(\omega_r)}}
βr=∑i∈Rexp(ωr)exp(ωr)
最后,对不同关系下的隐藏嵌入进行求和得到节点嵌入:
h
i
′
=
∑
r
∈
R
β
r
⋅
h
i
,
r
h_i'=\sum_{r\in\mathcal{R}}{\beta_r\cdot h_{i,r}}
hi′=r∈R∑βr⋅hi,r
如图1所示,最终的节点表示是通过对所有关系子图中的隐藏嵌入进行加权求和获得的。然后将它们放入具有门控循环单元的边缘网络中进行进一步的特征更新。边缘网络将边缘的特征向量转化为边缘值,起到边缘特征映射函数的作用,它可以通过两个完全连接层简单地实现。这样,边缘特征就可以包含在节点嵌入中,从而丰富了特征信息。
更新和读出
使用GRU在每个时间步更新隐藏节点嵌入:
h
i
(
t
)
′
=
N
e
i
g
h
b
o
r
h
o
o
d
A
t
t
(
h
j
(
t
)
)
h_{i}^{(t)}{'}=NeighborhoodAtt(h_j^{(t)})
hi(t)′=NeighborhoodAtt(hj(t))
h
i
(
t
)
′
′
=
R
e
l
a
t
i
o
n
a
l
A
t
t
(
W
r
,
h
i
(
t
)
′
)
h_{i}^{(t)}{''}=RelationalAtt(W_r,h_i^{(t)}{'})
hi(t)′′=RelationalAtt(Wr,hi(t)′)
h
i
(
t
+
1
)
,
c
(
t
+
1
)
=
G
R
U
(
h
i
(
t
)
′
′
,
c
(
t
)
)
,
h_{i}^{(t+1)},c^{(t+1)}=GRU(h_{i}^{(t)}{''},c^{(t)}),
hi(t+1),c(t+1)=GRU(hi(t)′′,c(t)),
其中
c
(
t
)
c^{(t)}
c(t)表示GRU历史信息向量,GRU更新功能旨在聚合和增强来自其他节点的消息以及来自先前时间戳的消息以更新每个节点的嵌入向量,这在分子学习中起着重要的作用,它学习元路径中传递的长远消息。在递归更新之后,使用一个读出函数为所有节点嵌入产生图级嵌入,最后送入一个两层的MLP中得到预测值。
实验
实验数据
实验结果及分析
对比实验
元路径敏感度分析
为了进一步研究每个元路径的贡献,逐个删除整个元路径语料库中的每个元路径。通过这种方式,可以观察到模型中的元路径敏感性。然后得到了每条元路径的一系列MAE值。如敏感度结果所示,删除每个元路径对模型有明显且不同的影响。尽管很难准确地知道哪一种路径是以化学方式控制了一个分子的溶解度,但表2中的结果大致表明,具有“-O”、“=O”和“S=O”亚结构的元路径可以从亲水性基团(如羟基、羧酸片段和磺酸片段)中衍生出来,对预测水中的溶解度有更大的贡献。这种官能团通常使一种化合物具有较低的log P,即较高的水溶解度。可以从下图所示的预测案例中进一步观察到这一点。左柱中的大多数分子都表现出亲水性。通过这些观察,发现模型可以捕捉复杂化学官能团的相互作用,并随后通过引入元路径连接来学习一个分子图的有意义的语义表示。
相关知识链接
下载
基础知识
异构图相关:metapath2vec: Scalable Representation Learning for Heterogeneous Networks
基准实验涉及的论文
GCN: T.N. Kipf, M. Welling, Semi-supervised classification with graph convolutional networks, in: International Conference on Learning Representations (ICLR), 2017.
GGNN: Y. Li, D. Tarlow, M. Brockschmidt, R.S. Zemel, Gated graph sequence neural networks, in: International Conference on Learning Representations (ICLR), 2016.
GIN: K. Xu, W. Hu, J. Leskovec, S. Jegelka, How powerful are graph neural networks?, in: International Conference on Learning Representations (ICLR), 2018.
MPNN: J. Gilmer, S.S. Schoenholz, P.F. Riley, O. Vinyals, G.E. Dahl, Neural message passing for quantum chemistry, in: International Conference on Machine Learning
(ICML), 2017, pp. 1263–1272.
PAS: L. Wei, H. Zhao, Q. Yao, Z. He, Pooling architecture search for graph classification, in: ACM International Conference on Information & Knowledge Management
(CIKM), 2021, pp. 2091–2100.
PNA: G. Corso, L. Cavalleri, D. Beaini, P. Liò, P. Veliˇckovi´c, Principal neighbourhood aggregation for graph nets, in: Advances in Neural Information Processing
Systems (NeurIPS), vol. 33, 2020.
MolHGT: D. Deng, Z. Lei, X. Hong, R. Zhang, F. Zhou, Describe molecules by a heterogeneous graph neural network with transformer-like attention for supervised property predictions, ACS Omega 7 (4) (2022) 3713–3721.
High-order: C. Morris, M. Ritzert, M. Fey, W.L. Hamilton, J.E. Lenssen, G. Rattan, M. Grohe, Weisfeiler and leman go neural: higher-order graph neural networks, in:
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), vol. 33, 2019, pp. 4602–4609.
总结
本文提出了一种基于元路径融合的图学习方法,用于分子图属性回归。将每个分子建模为HIN,并通过构建基于元路径的连接来利用异质信息。由于元路径适合表示原子之间的复合相互作用,该方法适用于探索复杂的化学结构,特别是官能团。通过构建基于元路径的连接,节点嵌入可以与更多全面的信息。此外,本文还设计了一种使用分层注意策略的异构图网络来嵌入图。实验结果表明,本文模型在学习用于性质预测的有效分子指纹方面是强大的。
亮点
1.将分子表示成异构图,在不同边关系下考虑原子的隐藏表示,最后融合不同关系下的原子表示作为最后原子表示。
2.构建元路径连接,丰富了原子间的关系。
[不足]
[启发]
1.挖掘原子间隐藏的关系
2.从不同边关系考虑原子间的相互作用力
BibTex
@article{ji2023metapath,
title={Metapath-fused heterogeneous graph network for molecular property prediction},
author={Ji, Ying and Wan, Guojia and Zhan, Yibing and Du, Bo},
journal={Information Sciences},
volume={629},
pages={155--168},
year={2023},
publisher={Elsevier}
}