进化材料基因：机器学习如何推动下一代新材料的发现

最新推荐文章于 2023-05-04 15:38:55 发布

PaperWeekly

最新推荐文章于 2023-05-04 15:38:55 发布

阅读量1.7k

点赞数 1

文章标签：算法神经网络大数据编程语言 python

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/109192389

版权

©PaperWeekly 原创 · 作者｜张玮玮

单位｜东北大学硕士

研究方向｜情绪识别

本文主要来源于 Annual reviews 最新发表材料领域的 2020 年度综述 [1]。机器学习利用化学和材料数据正在改变材料发现和设计领域，但要充分利用机器学习算法、工具和方法仍需要大量工作。在这里，本文回顾了该领域迄今为止的成就，主要关注三个方面：

1）学会观察（机器学习如何表示用于人工智能模型生产的材料数据）；2）学会评估（一旦材料数据被正确地表示出来，它们如何可以被用来构建强大的模型）；3）学会搜索（一旦具备能够在数据的基础上估计材料的属性的能力，我们就可以利用这种能力建立强大的和创造性的搜索策略）。

学会观察

将机器学习应用到分子领域上，首先需要特定方法来表示分子并且适合于算法的输入或生成。分子表示形式通常是张量的数字或字符串的字符，并且已经有研究证明选择合适的分子表示往往比学习算法的选择有更大的影响。

分子表示通常为手工制作的一维描述符集合，每个描述符都是单一的汇总统计（例如，原子数、键数、分子量、实验或计算性质），或者更系统的分子结构表示法。

为了有效地捕获材料信息，一个关键的要求是遵守已知的控制分子种类的物理原理。正确表征分子和材料必须遵循以下原则：

1. 分子表示必须与输入中提供的原子的顺序保持不变。2. 分子表示必须与输入中提供的键的顺序保持不变。3. 分子表示必须不受输入中标记原子对的顺序的影响。一般来说，任何使用这些原则的表示法的学习算法都将具有区分物理上无意义的差异的变分灵活性。

1.1 传统分子指纹表示

二维表示法编码一个分子图，该分子图由原子的恒等式以及连接这些原子的键合所确定。由于没有坐标编码，二维表示法对平移和旋转是隐式不变的，因此剩下的对称考虑就是原子和键的顺序。

常用的表示方法有：simplified molecular input line entry system（SMILES）， International Chemical Identifier（InChI）,the Molecular Access System（MAACS），extended connectivity fingerprints（ECFP）。

SMILES 与 InChI 都是用少量字符表示结构信息的重要方法。SMILES 是通过遍历和记录重原子在分子图的修改版本中出现的，其中环被破坏了，原子的断裂键被标注。相比之下，InChI 只是分子式、连通性、结合氢、电荷、立体化学和同位素的分层说明，并不是不变的原子索引的排列。

SMILES 由于其基于字符的本质，它可以使用适合于自然语言处理的建模技术，相应地，它经在深度学习中找到了大规模的用法，特别是用于新分子物种的生成。

另一种表示方法是使用二进制向量，也称为化学指纹。许多这样的编码已经被开发成一种根据特定子组的存在或不存在来搜索分子数据库的方法。MAACS 密钥是一个 166 维的二进制向量，其中每个元素或密钥对应于某些分子特征，比如某个特定官能团的存在。

ECFP 属于 circular fingerprints，该族构成了最广泛使用的基于张力的拓扑表示之一。在构建 ECFP 表示时，在特定截止半径内通过每个原子的路径数将针对每个原子进行编码，并通过哈希表对结果进行压缩，以符合预定义的长度。与由 MAACS 键指定的预定分子特征相比，ECFP可以系统地表征每个原子。

由于 ECFP 中存在哈希和 MAACS 密钥捕获的固定数量的分子特征，两者都不能构成一个完整的表示，从而不能对其编码的分子图进行完全重构。这与 SMILES 和 InChI 形成了对比，因此它们更适合于回归和分类问题。

虽然分子图的编码对于旋转和平移是隐式不变的（因为不存在自由度），但如果试图获取完整的原子坐标时，情况就不一样了。因此，考虑如何实现对称不变性以寻找更表达的三维分子表示是一个关键问题。

Parrinello 通过一些径向和角对称函数编码分子内的原子。另一个早期的三维分子表示法是由 von Lilienfeld 研究小组发展起来的，受到了分子哈密顿量的启发，称为库仑矩阵，这是一个矩阵表示，其中非对角元素对应于原子对之间的库仑核排斥项，而对角元素编码原子电荷。

这种设计的一个缺点是缺乏置换不变性。为了克服这一缺点，并提高机器学习方法用于从头计算数据的准确性，von Lilienfeld 小组进行了进一步的工作，从而产生了一系列表示：

1）键，角度，机器学习表示；2）FFLA晶体表示；3）London and Axilrod-Teller-Muto光谱；4）分子炼金术的径向角分布以及距离、角度和二面角的直方图。

1.2 基于神经网络的分子指纹表示

另一个常用的分子表示方法是使用深度神经网络学习。从某种意义上说，这把发现的任务交给了算法本身，尽管代价是把研究人员推向寻找有效网络架构的问题。

Duvenaud 等人 [2] 引入了编码分子图的神经指纹。Duvenaud 等人受到 ECFP 工作原理的启发，采用了之前用于从原始图像中逐步提取高阶结构来学习图像表示的卷积神经网络架构，最后通过从原始图结构中逐步提取高阶结构来学习分子表示。Kearnes 等人 [3] 对这一最初的工作进行了补充，他们增加了更复杂的处理置换不变性的方法，并在消息传递框架内进一步推广 [4]。

Behler & Parrinello 在其神经网络电位 ANI 中扩展了 Parrinello 对称函数，以构建单原子原子环境向量作为分子表示，从而更丰富地嵌入局部原子信息 [5]。另一种方法被称为张量场网络，它对点云表示 [6] 进行操作，并进行封闭模拟深度张量网络是在原子间距离矩阵与原子恒等式向量相结合的基础上运行的。神经指纹是通过尝试解决一个特定的推理任务而产生的。这样，最终的指纹表达了适合于解决推理问题的分子信息。

多任务学习，即一次性学习多种化学性质，允许生成更一般的可迁移指纹。强迫一个指纹表达适合于多个化学任务的信息通常可以提高单个子任务的性能 [7]。任何一种神

最低0.47元/天解锁文章

PaperWeekly

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
进化材料基因：机器学习如何推动下一代新材料的发现

©PaperWeekly 原创 ·作者｜张玮玮单位｜东北大学硕士研究方向｜情绪识别本文主要来源于 Annual reviews 最新发表材料领域的 2020 年度综述 [1]。机器学习...
复制链接

扫一扫