目录
1.基于序列的表示(sequence-based representation)
SMILES(Simplified Molecular Input Line Entry System)字符串
1.数据扩充方法(Data augmentation methods)
2.卷积神经网络模型(Convolutional neural network models)
3.递归神经网络模型(Recurrent neural network models)
4.子结构学习方法(Substructure learning methods)
5.基于序列的自监督学习方法(Sequence-based self-supervised learning methods)
三、基于图形的方法(Graph-based methods)
1.光谱GCN模型(Spectral GCN models)
4.基于图的自监督学习方法(Graph-based self-supervised learning methods)
四、基于图像的方法(Image-based methods)
五、基于三维图形的方法(3D Graph-based methods)
六、基于三维网格的方法( 3D Grid-based methods)
七、基于数据的混合方法与集成学习( Hybrid data-based methods and ensemble learning)
八、迁移学习、多任务学习和元学习( Transfer learning, multi-task learning, and metalearning)
九、DL模型在分子性质预测中的可解释性(Interpretability of the DL model on molecular property prediction)
十、分子性质预测的挑战和未来的工作(Molecular property prediction challenges and future work)
1.三维数据中的自监督学习方法(Self-supervised learning methods in 3D data)
2.有经验的图形卷积方法(Graph convolution methods with experience)
3.1D、2D和3D数据融合和选择方法(1D, 2D, and 3D data fusion and selection methods)
4.元学习方法(Meta-learning methods)
5.DL模型的可解释性(The interpretability of DL models)
前言
这是一篇发表在DrugDiscoverToday(2022中科院二区,属于Elsevier出版社旗下)上的一篇关于分子表征和性质预测的综述。
这篇综述中总结了深度学习(DL)方法在分子表征和性质预测方面的当代应用。并根据分子数据的格式(1D、2D和3D)对DL方法进行分类。还讨论了一些常见的DL模型,如集成学习和迁移学习,并分析了这些模型的可解释性方法。还强调了DL方法在分子表征和性质预测方面的挑战和机遇。
一、分子表征
1.基于序列的表示(sequence-based representation)
-
SMILES(Simplified Molecular Input Line Entry System)字符串
在SMILES字符串中,原子和化学键分别用字母和标点符号表示,分支用括号描述。 C30H35N7O4S
然而,由于SMILES字符串可能不对应于有效分子,因此提出了自参考嵌入字符串(SELFIES)来解决这个问题,其中每个SELFIES字符串对应于有效分子。
-
分子指纹(Molecular fingerprint)
指纹是另一种基于序列的分子表示,它包含分子结构信息,如扩展连接指纹(ECFP)和分子访问系统(MACCS)。它们通常被用作传统ML方法的输入或与其他类型的数据相结合的辅助输入。
尽管SMILES字符串简单快速,但它仍然无法全面捕捉原子之间的空间关系。在C=C5苯环中,五个碳原子被分组为C5;然而,不同的碳原子与其他原子有不同的关系,并且位于分子中的不同位置。此外,它们可能对应不同的性质。因此,仅使用SMILES不足以预测某些性质。
分子指纹(Fingerprint)和SMILES(简化分子线性输入规范化系统)是描述分子结构的两种不同方法,它们之间存在着关联。
SMILES通常被认为是一种字符串表示法,用于将分子描述成一个可读的字符串。在SMILES表示中,分子中每个原子都用一个字母或数字表示,而分子中的链、支链和环则用括号表示。因此,SMILES提供了一种方便的方式来存储分子结构,并且易于进行自动处理和分析。
相对地,分子指纹是一种数学描述符号,主要通过对分子中的某些化学特征进行计算得出。不同于SMILES,分子指纹将分子结构转化为一系列数字或位向量,以此表示分子的结构信息。这些特征通常包括原子和分子的电荷、大小、极性等,旨在刻画分子所具备的一些重要化学特征。
虽然SMILES和分子指纹并不是直接相关的概念,但在实际应用中,SMILES常常是用来作为计算分子指纹的输入格式之一。例如,许多化学信息学软件(如RDKit、ChemAxon等)都可以将SMILES格式的分子自动转换为其对应的分子指纹,以实现各种计算机辅助化学(Computer-Aided Chemistry)任务,如药物筛选、毒理学评价、分子分类等。因此,SMILES和分子指纹可以说是在化学信息学领域中相辅相成的两种描述方式。
但它们也有各自的缺点。
首先,分子指纹存在着诸如维度灾难和数据稀疏性等问题。因为每个指纹都需要通过计算得到,而不同的指纹方法往往会产生大量不同的特征,这使得指纹长度急剧增加,导致训练模型所需的存储空间和计算成本都大幅提高。此外,由于分子指纹通常是二进制或实值向量,在大多数情况下,任何两个分子之间的指纹都具有很少的共享特征,这使得使用分子指纹进行分类和回归任务时存在严重的数据稀疏性问题。
其次,SMILES表示法也存在一些缺陷。首先,SMILES只记录了粗略的分子结构信息,对于分子的微观特征无法体现,这在进行一些高级应用时可能会带来一定的困难。另外,由于SMILES格式的字符串序列可以有多种不同的编码方式,不同软件中解释同一个分子的SMILES序列可能会有差异,这会影响在不同平台上进行分析和处理的可靠性和准确性。
2.分子2D数据(molecular 2D data)
-
分子图数据(molecular graph data)
图形数据是学习分子表示的一种有效方法。分子的原子被视为分子图中的节点,而化学键被视为边。随着图卷积网络(GCN)的发展可以更直接、更有效地收集相邻节点的信息,这有助于捕捉分子内原子之间的空间关系。
-
分子图像数据(molecular image data)
通过将分子转换为基于像素的光栅化图像而获得的分子图像是分子的另一种2D表示格式,图像中的每个像素表示键、原子或空白背景。
分子图数据(molecular graph data)和分子图像数据(molecular image data)是描述分子结构的两种不同方式。
分子图数据通常采用基于图论的方法表示分子,将原子之间的化学键和它们之间的拓扑联系转换为数学图中的节点和边。分子图可以作为分子的结构描述符号,为计算机辅助化学研究提供了一个统一、可执行的平台,可用于分子识别、分类、性质预测等方面。例如,CDK(Chemistry Development Kit)、OpenBabel等化学信息学软件都支持处理分子图数据。在分子图表示中,每个原子被表示为一个节点,原子之间的化学键则表示为连接节点的边。
相比之下,分子图像数据着重于显示出分子的几何结构,通常由二维或三维图像组成;这些图像显示了分子的形态以及原子之间的相对位置,尤其在三维空间中。分子图像的获取需要通过实验手段,如光学显微镜、X射线衍射、电子显微镜等。分子图像使我们能够观察到分子层次上的细节,从而对分子结构和功能进行更深入的理解和研究。
总的来说,分子图数据和分子图像数据构成了计算机辅助化学研究中描绘分子结构的两种主要方式。分子图数据用于计算机进行快速处理和分析,而分子图像则帮助人们直观地理解分子的空间几何结构。
3.分子3D数据(molecular 3D data)
-
分子图(3D molecular graphs)
3D分子图记录了每个原子的3D位置。
-
分子网格(3D molecular grid)
3D分子网格是一种特殊的3D图像,其中网格中的体素通过不同的方法指示分子构象的不同元素或属性。
3D分子图(3D molecular graphs)和3D分子网格(3D molecular grids)是描述分子结构的两种不同方式,都涉及到新兴的计算机模拟技术。
3D分子图是一种基于分子结构信息的三维表示方法,可以用来捕捉分子之间的化学特征并帮助分析分子在空间中的排列。它与传统的平面分子图相比,在表达分子中原子的位置、相对距离以及键角等方面更加精确。
3D分子网格是一种将分子封装在规则网格中的三维表示方法,使得分子中各个元素在体积上被划分为许多不同的小区域或单元格,每个单元格被赋予了一些物理或化学属性的值。这种方法可以使得分子之间相互作用的强度在空间上呈现出连续性,从而更加真实地反映分子与周围环境的相互作用。3D分子网格常用于分子对接、药效预测等领域。
当然,3D分子图和3D分子网格都有着自己的优缺点。3D分子图能够准确地描述分子的几何结构和化学键角度信息,但如果分子过于复杂,三维结构的计算过程可能会非常耗时和困难;3D分子网格较好地反映了分子与其周围环境的相互作用,在分子识别、分子对接等领域有着不可替代的作用,但它也会带来少量的计算误差并需要更多的计算代价。
总的来说,3D分子图和3D分子网格在描述分子结构方面各自有其优缺点,具体应用还需考虑问题的实际情况和需求。
二、基于序列的方法
SMILES是描述分子最直接、最简单的方法。它类似于自然语言,其中每个原子都是句子中的一个单词。鉴于自然语言处理(NLP)领域的快速进展,NLP方法可以应用于SMILES序列的嵌入。
1.数据扩充方法(Data augmentation methods)
在使用DL模型处理SMILES之前,必须克服SMILES中的不一致性。对于一个分子,根据SMILES语法,可能有许多有效的SMILES序列。起始原子和遍历顺序可能对应于一个序列;因此,我们可以选择任何原子作为起点,选择任何分支作为第一个通过的原子。标准SMILES确保每个分子根据某些规则只有一个SMILES字符串。然而,当使用非规范SMILES作为输入时,相同分子的各种SMILES格式可以增强DL模型的学习能力。这是因为非规范SMILES还可以通过提供与SMILES语法和化学性质相关的潜在特性来为DL模型带来好处。因此,建议增加数据或枚举以扩大字符串的覆盖范围,从而确保模型能够学习分子的多个字符串。
考虑到每个分子都有不同的长度,与长字符串相比,短字符串的可能符号更少。在Conv2S中,随机连续生成SMILES字符串,直到L^N/(L+1)<1%,其中L和N分别是生成的SMILES的长度和数量。为了克服数据集不平衡的问题,具有较少SMILES字符串的分子由重复的SMILES串来补充,以确保所有分子具有相同数量的SMILES串。Kimber等人对五种不同的SMILES增强方法进行了全面分析。他们发现,增强方法提高了DL模型的性能,并且使用规范SMILES所获得的结果优于使用单个随机SMILES。
2.卷积神经网络模型(Convolutional neural network models)
卷积神经网络(CNNs)可以用于序列数据处理。例如,ConvS2S模型将SMILES转换为整数列表,然后添加位置嵌入以通知模型对应字母的位置。
Lim等人还对SMILES进行了字符级嵌入,其中为每个字母生成嵌入向量。引入了一个带有多头自注意模块的CNN层来处理输入嵌入,并添加了两个完全连接的层来输出预测。SMILES卷积指纹(SCFPs)结合了多原子性质,包括类型、度、电荷和手性,形成原子的特征向量。SMILES序列可以转换为矩阵,矩阵的长度是SMILES顺序的最大长度。构造了两个卷积和池化层以及随后的全局池化层来提取表示,并且相应滤波器的大贡献通过回溯指示了重要的子结构。
考虑到基于CNN的方法需要固定长度的输入样本,