OpenLAM | 深度势能预训练大模型DPA-2发布

07de862ab6d139196f245950d5e5c762.png

e32160cc086ca69fbaf31c2c678dceb3.png

在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型计划OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。

20bbaf2caa6a38e5edbef52d9c50ca29.png

经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作,深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2,将成为 OpenLAM 大原子模型计划的重要载体。基于 DPA-2 的微调/蒸馏/应用自动化流程也于同期面向社区全面开放,打通了面向各类实际应用的最后一公里。相关文章[1]以《DPA-2: Towards a universal large atomic model for molecular and material simulation》为题,在arXiv上预发表。

2be1616582382e6093e361fc0df82180.png

论文链接:

https://arxiv.org/abs/2312.15492

面向丰富的下游任务,微调 DPA-2“大模型”所需的数据量整体相比过去减少了 1-2 个数量级;同时,进一步蒸馏、压缩得到的深度势能“小模型”可以保持过去模型的精度和效率。相比于去年发布的 DPA-1,DPA-2 在模型架构显著更新的同时,最大的特点在于采用了多任务训练的策略,从而可以同时学习计算设置不同、标签类型不同的各类数据集。由此产生的模型在下游任务上显示出极强的 few-shot 乃至 zero-shot 迁移的能力,显著超越过去的方案。目前用于训练 DPA-2 模型的数据集已覆盖了半导体、钙钛矿、合金、表面催化、正极材料、固态电解质、有机分子等多类体系。

a5f04463f1a5803d16d376f06b541361.png

图1 DPA-2 提出的多任务预训练、微调、蒸馏全流程示意图

“大原子模型计划(OpenLAM)”为进一步打破数据壁垒,拓宽原子层面各方面的应用,为开源开放的科学计算生态共建打开了新的思路。作为一项开放式的协作计划,建立一个开放且面向应用的模型评估系统也格外重要。面向社区该计划将定期进行模型更新与评估报告发布、定期更新发布领域应用与评估工作流,同时开展比赛、培训交流,与领域开发者协作推动建立供预训练与评估的数据集等。这将是 OpenLAM 计划在 2024 年的重点。

感兴趣的读者,欢迎通过以下 Bohrium Notebook 链接快速上手 DPA-2,也欢迎使用 DP Combo@Bohrium APP 更加深入系统地产生你需要的势函数!

ea899172aade2be1a123ce078036bb59.png

Notebook链接

https://nb.bohrium.dp.tech/detail/18475433825

以下为关于 DPA-2 的详细介绍。

f3d6df7684387da25e9239b0b3a8eb95.png

DPA-2 项目背景

304fcd71fc55eb7297e4a8c937cc6138.png

机器学习势函数在材料科学、计算物理等领域应用广泛,并取得了较大成果。然而,面对一个新的复杂体系,要获得可用的、较为完备的势函数模型,科学家们基本上仍然需要获取大量计算数据并从头开始训练模型。随着电子结构数据的积累,开始有工作关注“通用”的势能函数模型,比如 DPA-1,Gemnet-OC,Equiformer-V2,M3GNet 等,并有部分工作将其应用到“预训练+微调”的范式上来,从而节省新体系的数据生产成本。

但是这些模型还没有做到通用,主要有以下几方面的问题:

(1)模型要求产生预训练数据的方式(比如泛函、DFT 计算的参数设置等)必须严格一致,这极大地限制了训练数据的来源范围,使得大部分模型都只能局限在单一数据集或统一生产的数据库中,数据量受到限制,从而也导致模型泛化能力不足。

(2)模型结构本身的迁移能力不足,预训练之后在下游体系上的微调效果有限;

(3)部分模型本身不满足基本的物理性质,比如保守性(即输出受力必须严格是输出能量关于输入坐标的负梯度)、连续性(模型输出必须关于输入二阶连续)等,从而无法用于真正应用体系的模拟中,再加上部分模型参数规模庞大,进一步限制了应用的发展。

要实现真正意义上的 LAM 通用大原子模型,以上的问题是必须要被解决的。

4ef2f9952579793239e52a0fb224f066.png

多任务预训练

a226274b5d53d1859f582d3ecbc9a558.png

为此,参考 LLM 的发展理念,在提出新模型结构的同时,DPA-2 首先提出了一套多任务预训练(Multi-task Training)框架,可以在不同标注的数据上同时进行训练,得到统一的预训练模型,如上图1(a)所示。DPA-2 可以通过共享大部分网络参数、不同数据集使用不同 head 的方式,在任意多种来源的数据集上同时进行多任务训练,相比使用单一来源数据训练的模型,极大地扩展了其泛化能力和应用范围。但与此同时,多任务的模型参数量并没有本质的增加,这也导致在训练上可能会更为困难。原文中采用了更为科学的采样训练方式,结果表明多任务模型在不同数据集上的精度,和单独训练的模型精度非常接近甚至更高,这也表明了这种训练方式的可行性。

2cca10618088cb82ac6345cccdcbd606.png

下游数据集微调

6c6cb741747bae89e117c41cdfe41aa3.png

在预训练结束后,文中采用了图1(b)中的方式在下游数据上进行微调。“预训练+微调”范式的核心要求是下游数据集上的迁移能力,即在经过预训练之后,在下游的数据集上,能用尽可能少的数据达到满意的精度。为了测试这一点,文中在各种不同下游数据集上,对 DPA-2 预训练之后的模型进行了迁移能力的测试,部分结果如图2所示:

f934499a85702e5fe0b8d9d286f614b0.png

图2 DPA-2 多任务预训练后在下游体系微调的表现

图中横坐标是所用数据量,纵坐标是能量和受力的收敛误差。可以看到,在多任务预训练后,DPA-2 微调代表的深绿色线,要远远低于从头训练的深蓝色线,在大多数体系上,多任务预训练后的模型仅用很少样本(few-shot)、甚至完全不用下游数据(zero-shot)就已经达到了实际应用中可用的精度。平均来看,基于多任务预训练获得的 DPA-2 模型,在各个下游体系能节省 90% 以上的数据。

0bd930e0f6b9901343ac4698d02d5625.png

模型蒸馏和应用测试

51b20eb33c8ab6353d6c079d5c7b18ab.png

为了追求预训练模型框架的泛化能力,模型参数规模肯定会越来越大,从而影响推理性能,导致模型难以被用于真实场景。为了解决这个问题,文中也提出了模型蒸馏的方式,如图1(c)所示。在下游体系上少量数据微调结束后的模型,可以被叫做Teacher模型,用它去教更简单、轻量的Student模型(比如 DPA-1,DeepPot-SE 等),期望能使其在特定下游体系拥有接近 Teacher 模型的精度,同时相比 Teacher Model 有接近两个量级的效率提升,从而可以被用于大规模、高效率的应用模拟中。文中具体采用的是类似主动学习的方式用 Teacher 模型去探索数据空间,并代替量子力学方法来做新数据的标注,从而高效地将知识蒸馏到更简单的 Student 模型中,文中 Teacher 和 Student 的精度对比也证明了蒸馏方案的可行性。

回到势能函数本身,其最终必然是应用导向。为了测试模型的可靠性,文中还在多种体系上进行了实际模拟和性质测试,如图3所示:

720abc502fa8a31a1d0735a1d8b91eea.png

图3 DPA-2蒸馏后的模型在下游体系中的应用测试

上图测试了蒸馏后的模型在水上的径向分布函数(Radial Distribution Function)、固态电解质上的扩散系数(Diffusion Constant)和钙钛矿铁电固溶体上晶格常数(Lattice Constant)随温度的变化等性质的复现。对比原来的模型,使用预训练后微调、蒸馏的方式,在三个体系上分别仅使用了原来 0.25%、1.01% 和 7.86% 的数据,证明了整套流程的可靠性。

0d49031ffb8528d9254e5cdfa48c664a.png

其他模型框架的对比

6e34f109a36c3d295da4707ac2d28f44.png

文中还将 DPA-2 的模型结构和其他模型,如 Gemnet-OC (GNO)、Equiformer-V2 (EFV2)、Nequip、Allegro 进行了对比,在传统单数据训练的意义下,公平比较了模型结构本身的能力,如下表所示:

0b4fd5ea800269de8996ab71bc5cdfef.png

表1 DPA-2 模型结构相比其他模型的精度对比

(batchsize=1, 1 million steps)

可以看到,相比其他模型来说,DPA-2 在各个应用数据集上的表现要更为稳定。

29a7c10aaf41c3a2fd308bc8b5f5ba39.png

总结

4840ce6554397e14906f0d4bee8fa134.png

DPA-2 的提出是我们迈向“通用大原子模型”的重要一步。通过在多种数据集上的大规模多任务预训练,DPA-2 在各种下游应用体系展现出显著的迁移能力,极大地减少了所需数据量,从而很大程度上降低数据生产的成本。另一方面,DPA-2 也强调,建立一个开放且面向应用的模型评估系统是非常重要的。

在走向大原子模型时代的过程中,开源开放将是必然的主题。欢迎志同道合的各位加入,开启更广泛科学发现和工业应用的新机遇。在征服元素周期表的路上,期待与你携手共创!

前往加入“大原子模型计划”:https://www.aissquare.com/openlam

outside_default.png

参考文献

outside_default.png

[1] DPA-2: Towards a universal large atomic model for molecular and material simulation.https://arxiv.org/abs/2312.15492

a290e50018befb4fb43e30654fcbf018.png

在园区网建设过程中,我们常常面临诸多实际挑战,例如网络设计、IP规划、成本控制以及项目管理等。而名为“园区网的真实案例.zip”的压缩包文件提供了大量实用资源,包括真实园区网案例、综合实验拓扑图、相关脚本和项目需求分析等,这些资料对于理解和实践园区网建设具有重要意义。我们重点关注其中的“园区网综合实验”部分。 园区网是在学校、企业或政府机构等相对封闭区域内构建的网络,旨在为区域内用户提供高效、安全的数据通信服务。综合实验则是为了模拟真实环境,帮助学习者掌握园区网设计的关键技术和步骤,通常涵盖网络设备选择与配置、VLAN划分、路由协议应用、QoS策略设定以及安全防护措施等内容。压缩包中的“最终”文件可能包含了项目实施的最终成果,如经过验证的网络设计方案、配置脚本或项目总结报告,这些资料有助于我们将理论知识转化为实际可执行的方案。 “命令”文件则可能包含了用于配置网络设备的CLI指令,涉及交换机和路由器的基本配置,如VLAN设置、端口安全、静态路由或动态路由协议(如OSPF、RIP等)。通过研究这些命令,我们可以学习如何根据不同场景正确配置网络设备,以满足业务需求。 IP规划是园区网建设中的关键任务,合理的IP规划能够避免地址冲突,便于管理和维护。案例中可能会展示如何根据园区规模、功能区划分及未来扩展需求制定合适的IP地址策略。成本控制同样重要,园区网建设不仅涉及设备购置费用,还包括安装、运维、升级等长期成本。案例可能探讨如何在满足功能需求的同时,选择性价比高的设备,优化布线方案,并通过节能技术降低运营成本。 项目总结则是对整个实施过程的回顾,涵盖遇到的问题、解决方案、经验教训及改进点,对提升项目管理能力和问题解决技巧非常有帮助。这个压缩包的内容全面覆盖了园区网设计、建设和管理的多个方面,是学习和实践网络技术的宝贵资源。通过深入研究这些材料,我们可以提升网络规划和实施能力,更好
内容概要:本文档《Grafana运维指南:从入门到精通》详细介绍了Grafana这一开源度量分析和可视化工具的各个方面。首先解释了Grafana在数据监控和分析中的重要性,强调其开源、可视化、多数据源支持、告警功能、灵活的仪表盘管理和丰富的插件生态系统等特点。接着,文档逐步讲解了Grafana的安装与配置,包括系统准备、初始配置和数据源配置等步骤。随后,深入探讨了数据源管理、仪表盘操作、插件使用等核心功能,提供了详细的配置和使用指南。最后,文档介绍了性能优化、安全管理、日志分析等日常运维要点,并通过一个实际案例展示了Grafana在大型电商平台运维中的应用价值。 适用人群:适用于运维人员、系统管理员、开发人员以及任何需要进行数据监控和分析的专业人士,尤其是那些对Grafana有一定了解或有兴趣深入了解的人群。 使用场景及目标:①帮助用户掌握Grafana的安装配置和基本使用方法;②指导用户如何整合多种数据源,创建和管理仪表盘;③提供性能优化、安全管理等方面的建议,确保Grafana在实际应用中的高效稳定运行;④通过实际案例分享,展示Grafana在复杂业务环境中的应用效果,提升用户对Grafana的理解和应用能力。 其他说明:本文档不仅涵盖了Grafana的基础知识和技术细节,还结合实际案例,帮助读者更好地理解和应用Grafana。建议读者在学习过程中结合实际操作,通过实践加深对Grafana的理解。此外,文档鼓励读者参与社区交流,分享经验和心得,共同进步。
内容概要:本文详细介绍如何使用Logisim搭建单周期MIPS硬布线处理器,旨在深入理解计算机体系结构和指令执行机制。文章首先介绍了MIPS架构的特点及其在计算机体系结构中的重要性,随后阐述了Logisim工具的功能及其在数字电路设计中的优势。接着,文章详细描述了单周期MIPS处理器的工作原理,包括指令的取指、译码、执行、访存和写回等步骤,以及硬布线控制器的作用和设计方法。在此基础上,文章逐步讲解了使用Logisim搭建单周期MIPS硬布线处理器的具体步骤,包括前期准备、构建基本框架、设计数据通路、设计硬布线控制器、电路连接与整合,以及测试与调试。最后,文章总结了搭建过程中的重点和难点,并探讨了单周期MIPS处理器的性能优化方向和MIPS架构的应用前景。 适合人群:计算机科学专业的学生、对计算机体系结构感兴趣的初学者、从事嵌入式系统开发的技术人员。 使用场景及目标:①帮助读者深入理解MIPS架构和单周期处理器的工作原理;②提供详细的实践指导,使读者能够在Logisim中搭建并测试单周期MIPS硬布线处理器;③培养读者的数字电路设计能力、逻辑思维能力和问题解决能力。 阅读建议:本文内容详实,涵盖了理论知识和实践操作,建议读者在阅读过程中结合Logisim工具进行实际操作,以便更好地理解和掌握相关概念和技术。同时,对于遇到的问题,可以通过反复调试和查阅资料加深理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值