一、背景
物质科学,作为研究物质的基本性质和相互作用的学科,随着物质科学研究的不断深入,计算模拟已成为探索物质结构、预测性质的重要手段,模拟过程的计算量随着物质结构复杂度呈指数级增长,对算力的要求越来越高。大部分物质科学领域的科研工作者在计算模拟过程中面临着算力不足、科研停滞的问题,算力荒已成为物质科学研究快速发展的瓶颈。本文将从当前物质科学研究遇到的问题为出发点,探讨超算互联网如何通过共享算力,为物质科学研究注入新的活力。
二、 物质科学研究面临的问题
物质科学研究是一门旨在理解物质结构、性质及其相互作用的基础科学,当前物质科学研究的对象体系正朝着微观、复杂化的方向发展,涵盖了从微观粒子(如原子、分子、电子等)的基本性质研究到宏观尺度下的材料、器件的量子效应等研究,乃至多层次、多维度的复杂系统研究,科研人员在进行这类对象研究时主要依靠的就是理论计算,面临的挑战如下:
1. 复杂体系的算力挑战:物质科学研究涉及到大量微观粒子间的相互作用,这些粒子在复杂体系中表现出高度非线性和不确定性,计算量与体系原子、电子数量呈指数级增长。计算机在计算这些复杂体系时,面临计算量大、计算时间长等问题。例如,在使用密度泛函理论(DFT)进行分子动力学模拟时,需要计算大量电子相互作用、电荷密度、能量等数据,需要计算的内容包括电子密度的三维积分、基组展开与矩阵操作、自洽循环等,这些计算涉及大量复杂的积分和矩阵运算,计算量巨大[1][2]。
2. 软件包的安装部署困难:物质科学研究需要使用多种计算方法和软件工具,这些工具的安装部署对计算机的软硬件配置一般都有要求,软件本身的配置过程也非常繁琐,而购买硬件设施和安装这些软件包的过程往往比较费时费力,影响研究进度。例如,在做量子化学计算时,一般需要安装Material Studio或VASP等软件,而安装Material Studio时需要先满足硬件配置,安装操作系统,设置环境变量、安装GCC、GFortran等编译器,数值函数库、License配置等,安装过程繁琐,出错率高。
3. 构建物质科学数据库面临的算力挑战:在当今数据驱动的科研环境中,物质科学数据库正扮演着至关重要的角色。从原子结构到物质性能的海量信息,物质科学数据库为科学家们提供了宝贵的知识宝库。然而,当前构建物质科学数据库面临巨大算力挑战如下:
-
数据生成与存储的挑战:构建物质科学数据库的第一步是收集数据,这通常涉及复杂的模拟和实验,产生大量需要存储和管理的数据。例如,高通量材料筛选可能涉及成千上万次的计算实验,每次实验都会产生数GB的数据。如果没有足够的算力支持,数据的生成速度会远远落后于研究的需求。
-
数据分析与挖掘的难题: 如何从生成的数据中提取有价值的信息,往往需要先进的数据分析方法和工具,如机器学习算法来识别、预测和发现新物质,这要求极高的计算性能,尤其是处理大规模数据集时。
-
实时更新与扩展:科学数据是动态变化的,随着新研究的不断涌现,数据库需要持续更新和扩展,这不仅增加了数据的复杂性和多样性,也对计算资源提出了更高要求。实时处理新数据,确保数据库的准确性和时效性,是一项艰巨的任务。
4. 跨学科融合的挑战:物质科学研究需要与其它学科(生物医学、能源等)和企业进行交叉合作,但缺乏相关企业和平台的信息。
三、超算互联网的解决方案
为了应对包括物质科学研究在内的各个领域所面临的算力瓶颈和解决方案挑战,超算互联网平台应运而生。超算互联网是一个集高性能计算算力、数据管理、软件服务等于一体的系统化平台,它有效地连接了算力供应方、应用开发者、运营服务商以及最终用户等产业生态中的各个环节,能够支持各类计算需求。针对物质科学研究面临的挑战,超算互联网提供了多种解决方案,旨在解决算力资源不足、软件部署复杂、数据处理困难以及跨学科合作等问题。
1. 共享算力
-
强大的算力群:超算互联网通过整合全国各超级计算中心的算力资源,可以为物质科学研究提供强大的计算能力支持。这些算力资源包括海量高性能处理器、大容量内存和高速存储系统等,科研人员可以利用超算互联网平台快速完成各种各样的复杂计算任务。
-
灵活的资源调度:超算互联网采用云计算和虚拟化技术,实现计算资源的灵活调度和共享。用户可以根据自身需求,随时随地访问和使用这些计算资源,无需担心计算资源不足的问题。
2. 丰富的软件资源和第三方应用平台
-
丰富的软件资源:超算互联网提供多种物质科学计算方法和软件工具,包括第一性原理计算Vasp、分子动力学模拟Lammps、nequip、 量子化学计算Gaussian、Material Studio、GPAW等,可以满足绝大数物质科学研究的计算需求。超算互联网平台负责软件的安装、配置和部署,用户只需要在平台上选择合适的软件工具即可快捷使用。
-
第三方应用平台:超算互联网接入了许多优秀的第三方应用平台,这些平台由各自领域的科研单位和企业支持,提供了不同领域和场景下优秀的解决方案。在物质科学领域,例如:创腾科技研发的分子模拟与人工智能创新平台MaxFlow平台,龙讯科技研发的量子化学计算平台QuantumFlow等。
3. 集成人工智能服务:超算互联网集成了AI服务,在超算互联网完成的计算结果可直接利用平台提供的数据分析工具、机器学习模型或者开发自己的算法,实现数据的计算、分析和可视化,为物质科学研究提供更便捷、高效、可靠的支持。
4. 完善的服务与支持:超算互联网提供完善的服务与支持、丰富的客户案例、商品试用和商品评价等。
5. 跨学科合作与开放共享:超算互联网平台定期组织了不同领域的科研大牛直播,分享了不同领域的最新的进展和研究方法等,更好促进不同领域的技术交流和合作。
四、创新与思考
科学研究的范式共有四个,几千年前是经验科学,又称为实验科学(第一范式),主要用来描述自然现象;几百年前,是理论科学(第二范式),使用模型或归纳法进行科学研究,然后通过演算进行归纳总结;几十年前,是计算科学(第三范式),主要利用计算机对科学实验进行模拟仿真,人们可以对复杂现象通过模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等;今天,是数据密集型科学(第四范式),随着数据的爆炸性增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论,数据密集型科学由传统的假设驱动向基于科学数据进行探索的科学方法的转变[3]。
当前物质科学研究正处于第三、四范式,也就是计算科学和数据密集型科学阶段,计算机模拟和人工智能成为了研究更深层次物质特性和复杂物质结构的主要方法和工具。对于每一名物质科学研究人员来说迫切需要系统化平台的支持,以实现物质科学研究方法和工具的全面升级。
而超算互联网就是这样一个平台,通过共享算力为物质科学研究提供了强大的计算支持,有效解决了算力荒的问题;多样的计算软件覆盖绝大部分的物质科学计算场景;通过集成人工智能平台支持科研人员快速构建和实现密集型科学作业,包括数据分析可视化,大数据模型预测物质性质,数据驱动物质设计等。未来,随着技术的不断进步和应用的不断拓展,超算互联网将在物质科学研究中发挥更加重要的作用。我们期待更多的科研人员能够利用超算互联网,共同推进物质科学研究的发展和创新,共同推进物质科学全面进入第四范式,推动人类科学技术更快发展。
五、参考文献
[1] Kohanoff J , Gidopoulos N I .Density functional theory: basics, new trends and applications[J].density function theory, 2003.
[2] 赵宇军,姜明,曹培林.从头计算分子动力学[J].物理学进展, 1998, 18(1):29.DOI:CNKI:SUN:WLXJ.0.1998-01-002.
[3] Hey, T., Tansley, S., & Tolle, K. M. (Eds.). (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research.