重磅!麻省理工团队再论机器学习力场!

来源公众号:分子动力学

文献解读

派言派语 写在前面

分子力场是分子模拟的基础,是准确计算原子之间的相互作用。一般而言,MD模拟结果的准确性主要依赖于模拟中所选用的分子力场,其精度直接决定了动力学模拟结果的可靠性。

力场一般分为三种:

i)全原子力场:精确定义每一个原子的参数。

ii)联合原子力场:省略非极性氢原子,同时把其参数整合到与他们成键的相邻原子上。

iii)粗粒化力场:进一步精简分子结构的力场参数,种类比较多。

随着人工智能的兴起,机器学习方法开始被应用到分子力场的构造中,实现了模拟效率和精度的完美结合。然而,目前机器学习力场的评价标准都局限于力和能量的预测精度。

鉴于此,麻省理工学院电子工程与计算机科学系付襄团队在《Journal of Computational Physics》上发表研究论文。

他们梳理了具有代表性的MD体系,包括水、有机小分子、多肽和晶体材料,并设计了与各自体系科学目标相对应的评价指标,说明了目前精度较高的一些机器学习力场并不能很好地再现轨迹。

并对一组最先进的(SOTA) ML FF模型进行了基准测试,并说明了通常的基准力精度如何与相关的模拟指标不一致。

他们展示了所选SOTA方法何时以及如何失效,并给出了进一步改进的方向。研究者提出,稳定性应该成为机器学习力场评价的一个新标准。

PDF原文回复“0314”获取。

内容梳理 结果讨论

MD模拟为材料和生物体系中的物理现象提供了原子级的见解。这类模拟通常基于力场(FF)来表征系统的势能面(PES),然后使用牛顿力来模拟长轨迹。

PES本身具有计算上的挑战性,理想情况下可以通过计算昂贵的量子化学来完成。传统上,替代方案是参数化的力场。

最近,机器学习(ML)力场被证明有望在保持量子化学准确性的同时,将MD模拟加速一个数量级。然而,仅仅依靠力的精度并不足以进行有效的模拟。

图1:水-10K上的结果

目前最先进的(SOTA)ML FF是否能够模拟各种MD体系?什么可能导致模型在模拟中失败?

研究者旨在通过一个新的基准研究来回答这些问题。首先为ML MD模拟引入了一个新的基准套件,包括模拟协议和定量指标。他们进行了大量的实验来测试一组SOTA ML模型。

此外,还提供了一个完整的代码库,用于训练和模拟有ML FF的MD,以降低入门门槛,并方便未来的研究工作。

图2:基础测试系统的可视化

研究表明,许多现有的模型在基于模拟的基准上进行评估时是不充分的,即使它们显示出准确的力预测。

ML力场通过应用核方法和神经网络等表达式回归器,从数据中学习势能表面(PES),以保持原子环境的对称性表示。

现有的ML力场的基准大多集中在力/能量预测上,以小分子体系最为典型。以催化剂为重点的OC20和OC22基准提出了从初始结构到弛豫结构/能量的任务,其目的是通过结构优化预测弛豫结构/能量。

研究者希望扩展现有的基准,以扩大对在多个尺度上表现出复杂的分子间相互作用的系统类型的覆盖。

他们选择了四个有代表性的MD体系(总结于表1):小分子、液态水、肽和固态材料。为了便于相对容易和快速的基准测试,研究者将体系的尺寸限制在200个原子以下。

表1:数据集汇总量化模拟稳定性

ML FFs会产生不稳定的动力学。因此,轨迹可以进入对可观测计算没有意义的非物理状态。

MD17数据集包含8个有机小分子的AIMD计算,被广泛用作ML FFs的力预测基准。研究者采用了来自MD17的四个分子并测试了模拟性能。

对于每个分子,从MD17数据库中随机抽取9500个构型用于训练,500个用于验证。从剩余的数据中随机抽取10000个配置进行力误差评估。

在Nosé-HOOVer恒温器下,从5个随机采样的测试构型中初始化,对每个模型/分子进行5次300ps的模拟,时间步长为0.5fs,温度为500K。

表2:MD17的结果

可以说是生物和化学过程中最重要的分子流体。由于其复杂的热力学和相行为,给分子模拟带来了巨大的挑战。

除了力误差外,还评估了平衡统计量和动力学统计量,即元素条件RDF和液体扩散系数的模拟稳定性和恢复情况。

LiPS是一种与电池开发相关的晶态超离子锂导体,也是MD模拟用于研究材料动力学性质的代表性体系。

研究者采用Batzner等人2022年的数据集,对所有模型的力误差、稳定性、RDF恢复和锂离子扩散系数进行了基准测试。

图3:不同力的稳定性比较 

研究总结 写在最后

研究者引入了一组不同的MD模拟任务,并对SOTA ML FF进行了全面的比较,以揭示ML用于MD模拟的新见解。

正如实验中所显示的,仅仅对力误差进行基准测试是不够的,应该使用基于仿真的度量来反映模型的实际效用。

研究者展示了现有训练方案/模型失败的案例研究,以更好地理解其局限性,并强调模拟稳定性的重要性。同时,实验也表明,模型的性能可以高度依赖于案例。

对于更具挑战性的MD系统,可能需要更有表现力的原子表示。新的数据集和基准在ML MD模拟未来工作中发挥了重要作用。ML推进MD模拟的可能性并不局限于机器学习力场。

增强采样方法实现了稀有事件的快速采样,并且已经被ML技术所增强。研究者希望他们的数据集和基准将鼓励未来在所有相关方面的发展,以推动MD模拟的ML前沿。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值