AI for Science:科研范式、开源平台和产业形态

a229d4f38b54ab50bd9d8496417d8d70.png

近年来,人工智能被证明能用做科学规律发现,不仅在应用科学领域,也能在基础科学领域发挥作用,如DeepMind使用人工智能来帮助证明或提出新的数学定理。

机器学习与科学模型的有机结合,给传统的科学领域带来了新的发展机遇,也正在推动科研范式的创新。在2022北京智源大会-AI for Science专题论坛上,鄂维南、王涵、陈默涵、柯国霖、王磊等前沿学者共同探讨交流了科学智能领域近年来的发展现状及趋势,针对当下AI for Science研究背后的深刻规律发表了洞见。

整理:孙晨、顾胜宇

论坛专家名单:

鄂维南 | 中国科学院院士 北京科学智能研究院院长

陈默涵 | 北京大学研究员

柯国霖 | 深势科技机器学习算法负责人

王涵 | 北京应用物理与计算数学研究所特聘研究员 智源青年科学家

王磊 | 中国科学院物理研究所研究员

基于深度学习的分子动力学模拟

王涵 | 北京应用物理与计算数学研究所特聘研究员 智源青年科学家

【研究背景及意义】

多尺度模型阶梯建模是理工科研究中的重要数学工具。在微观领域,分子动力学模拟方程是连接物质宏观性质和粒子微观状态的重要公式,但在建模所有原子间的相互作用时,传统方法无法实现快速精准的高维函数建模。王涵研究员提出采用深度学习方法,从模型、数据、高性能优化等角度入手,突破了传统方法的局限,实现了108规模的具有第一性原理精度的分子动力学模拟,处于国际领跑水平。

【研究方法】

王涵研究员首先回顾了传统的分子动力学建模方法,如下图所示。Top down 模式,基于假设和实验观测建模式函数,速度快但可信度相对较低;Bottom up 模式,通过量子力学的第一性原理建立势函数,虽然准确,但计算开销非常高昂。

接着,王涵研究员从模型、数据、高性能优化以及应用等方面介绍了基于深度学习的解决方法。在模型构造方面,王涵研究员介绍了深度势能方法,这是一个对第一性原理势函数的精确表示,具有扩展性和对称不变性等特点。在此基础上,王涵研究员还解释了深度势能模型如何在小体系小数据中学习到足够泛化的模型,并进一步提出了深度势能模型的长程版本,如下图所示。

456a4bf089a0d03b393cc68f55872da0.png

数据生成方面,介绍同步学习方法DP-GEN 。该方法能自动生成满足特定精度要求的最小训练数据集。相比于经验势,DP-GEN 开启了通过探索构型和化学空间持续改进深度势能的可能性。针对高性能优化,通过物理模型+深度学习+高性能计算的组合,深度势能方法实现了第一性原理精度的亿级分子动力学模拟,极大地缩短了计算时间。

2bf1e6772613952cf6a0258e1386b9a6.png

最后,王涵研究员介绍了深度势能模型在水的相图计算问题中的应用。

ba3e47ca8f96c17c82e4cb05073e2419.png

【总结及展望】

王涵研究员团队将深度学习方法应用于分子动力学模拟问题中,提出了深度势能模型和基于同步学习的数据生成方法,结合高性能计算,实现了第一性原理精度的亿级规模模拟。未来,王涵研究员团队将着眼于预训练模型、预训练数据库构造,以及高性能优化等问题。

国产开源密度泛函理论软件ABACUS介绍

陈默涵 | 北京大学研究员

【研究背景及意义】

原子尺度的不同模拟方法难以同时兼顾精度和效率,因此适用于不同的科学问题,也限制了科学上更多的应用。以密度泛函为代表的第一性原理计算方法被应用于材料、能源、化学等各个领域。密度泛函软件长期被欧美垄断,ABACUS是国内首个独立开发、功能完整的密度泛函软件,陈墨涵研究员介绍了软件开发、开源平台的相关工作。基于ABACUS软件,陈墨涵研究员介绍了深度学习辅助的密度泛函方法,可以实现更大尺寸,更高精度的分子动力学模拟的工作。

【研究方法】

陈默涵研究员首先介绍密度泛函理论的基本概念,密度泛函理论将材料中的所有电子作为一个整体来近似处理,大大简化了薛定谔方程的计算量。而密度泛函公式中的关键项交换关联泛函,其近似度直接影响着系统总能量的预测精度,如下图所示。

c8c3b49bd0458efd413f4f27019b1073.png

陈默涵研究员以液态水的局域结构为例,指出随着研究的深入,更高精度的近似方法不断被提出,但也带来了更大的计算量和计算开销。

2217a08277cc619bee6501eb9bebea4d.png

陈默涵研究员提出可以使用深度学习方法,在低精度的近似下获得高精度的预测结果。

接着陈墨涵研究员介绍了ABACUS软件开发的发展历史和相关工作,如下图所示。ABACUS是面向深度学习和新硬件的下一代国产密度泛函理论软件。

33e6494a82d99954c3d728bf3bb08574.png

在精度方面,已有软件CP2K相比,ABACUS也有不错的对比结果。

d258152a4e4150cd88aa75b24416030e.png

此外,陈墨涵研究员还介绍了ABACUS在开源社区和生态方面的发展和未来愿景,如下图所示。

8e3ba7251c112e2f5910d93780729d2c.png

3514a87a32847d9433637554f30bc7eb.png

最后陈墨涵研究员介绍了基于AI密度泛函方法DeePKS,该方法使用深度神经网络实现了低精度近似下的高精度输出,并展示了DeePKS+ABACUS实现单个水分子体系和扩展体系的效果。

1adfa21516117e081803b598ba71f5f9.png

5dd7e3ebfd228cfcdf553fe7bf3df49d.png

【总结及展望】

陈墨涵研究员团队开发了国内首个功能完整、自主开发的密度泛函软件ABACUS,突破了欧美国家的长期垄断。未来ABACUS将建设开源社区,面向深度学习和下一代硬件,实现促进交流、人才培养等目标。

药物设计中的大规模机器学习实践

柯国霖 | 深势科技机器学习算法负责人

【研究背景及意义】

蛋白结构和小分子模型是药物设计领域的两个主要场景。在蛋白结构方面,基于蛋白生物学的发展,蛋白结构数据相对充足,并且随着机器学习技术的发展,蛋白结构预测方法应运而生,AIphaFold 成功实现了输入蛋白序列对其相应三维结构的预测,但是其核心代码和训练数据未开源,且存在模型结构复杂、存储数据代价巨大、所基于的 JAX 框架未被开发者熟知运用等问题。在小分子模型方面,小分子模型数据量相对短缺,并且没有成熟的 3D 预训练分子模型。因此,在药物设计中,应用大规模的机器学习实践,实现预测蛋白结构,并完善分子预训练模型,可以进一步提高对蛋白结构和分子模型的认知,对于创新药物设计方法、提高药物疗效具有重要意义。

【研究方法】

深势科技针对药物设计领域在蛋白结构和小分子模型两个场景中分别提出了具体的解决方案:

在蛋白结构方面,深势科技提出了 Uni-Fold 方案用于蛋白结构预测,并相继更新了三个版本。该方案基于 AIphaFold 复现、重构和改进:第一,解决数据代价巨大问题,该方案在框架中加入稀疏矩阵的处理,对数据进行矩阵压缩并动态地在内存中解压;第二,提高训练效率,该方案对算法框架进行了整体的重构,使用 PyTorch 框架和融合算子;第三,提高训练稳定性,该方案加入随机变化和额外的损失的设计,限制了模型中间状态的大小。该方案的数据存储消耗降低了 50 倍,训练速度相较于 JAX 框架提升了 2 倍,并且相较于原版本达到相同效果只需使用一半的数据量。

在小分子模型方面,深势科技提出了 Uni-Mol 方案用于 3D 预训练分子模型。该方案基于标准的 Transformer 实现,为了引入 3D 信息,加入了空间位置编码等模块处理输入的 3D 位置信息。该方案是第一个直接处理 3D 分子预训练的模型,包含小分子预训练和蛋白口袋预训练两个模块,在所有相关任务中取得了较好成绩。

【总结及展望】

深势科技针对蛋白结构和小分子模型分别提出了 Uni-Fold 方案和 Uni-Mol 方案,Uni-Fold 方案基本改善了 AIpha Fold 的最新版本并取得了更好的效果,Uni-Mol 方案的论文刚刚发布,深势科技会对这两个方案做持续的迭代改进和数据开源。

圆桌讨论

【观点总结】

中国科学院物理研究所研究员王磊认为,AI 技术对物理中偏向基本层面的问题有所帮助,例如多电子薛定谔方程的求解、统计物理中自由能的计算等,但这些问题很难直接转化为现有的机器学习问题。目前研究者们更倾向关注生成型模型,这类模型与统计物理、多电子波函数关系更密切,另外微分编程将现有的机器学习基础和模拟手段结合也是非常好的切入点。

北京应用物理与计算数学研究所特聘研究员王涵认为,深度学习缺乏数学理论方法,在机器学习领域中,对工作分析误差来源比较困难,其背后有非常多的可能性,在实际工作中缺乏科学的数学理论指引,希望能够尽早有一些实际且完善的理论来指导机器学习;此外,DFT 软件非常重要,目前有很多类似的短板需要补齐。

北京大学研究员陈默涵认为,DFT 软件等短板需要补齐,近年来国家提高对软件发展的重视,但 DFT 软件不可能实现一蹴而就、短期超车的突破,需要兼顾算法局部和全局视野,推进教学改革、培养交叉型人才。

深势科技机器学习算法负责人柯国霖认为,在 AI for Science 领域解决问题的关键在于,需要与各个领域交流讨论,借鉴学习、取长补短,可以有效地形成一个领域的指南针,针对问题要找到正确、合适的方向,朝着目前可以落地、真正解决的问题的方向发力才有效果。


推荐阅读

fb752e4705c143a024c1ae0ad1a9aca4.png

Richard Sutton:经验是AI的终极数据,四个阶段通向真正AI的发展之路

35915403cb330a6b75a16b11fe2cb634.png

机器学习泰斗Michael I. Jordan与张宏江共话青年成长之路:研究者要对复杂时代有所贡献

024b7a768469a44803b1a55fe307a514.png

梅宏院士:如何构造人工群体智能?| 智源大会特邀报告回顾

89226e5db5b23476096c7dce521882bf.png

图灵奖得主Adi Shamir最新理论,揭秘对抗性样本奥秘 | 智源大会特邀报告回顾

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值