曙光TC4600百万亿次超级计算系统新系统测试-高斯Gaussian16
曙光TC4600 百万亿次超级计算系统新系统测试
Gaussian16
中国科学技术大学超级计算中心 张运动
一、软件介绍:
Gaussian 软件是目前计算化学领域内最流行、应用范围
最广的综合性量子化学计算程序包。Gaussian 软件基于量子
力学而开发,它致力于把量子力学理论应用于实际问题,它可
以通过一些基本命令验证和预测目标体系几乎所有的性质。此
外,可视化软件GaussView 的发布及计算机的快速发展更是大
大降低了理论计算的门槛,使得各领域研究者能够轻松使用
Gaussian 研究和分析各种科学问题。目前为止最新的版本是
Gaussian 16 A.03。
校超级计算中心统一购买安装的软件版本为Gaussian
Available Binary Versions for Rev. A.03,AMD/Intel
Vendor,X86_64 CPU,Nvidia Tesla-K40/K80 GPU,Linux,
不含Linda (即只能单节点内并行)。
二、测试平台:
曙光TC4600 百万亿次超级计算系统新系统:平台介绍
三、软件版本使用:
系统使用module 进行软件版本管理,查看安装软件版
本、配置、加载使用:
设置setenv GAUSS_SCRDIR /tmp ,计算时临时文件生成在计
算节点的/tmp 目录下,减少存储读写,使用计算节点本地硬盘,可
有效减少计算耗时。
若在~/.bashrc 等环境变量文件中设置有多个高斯版本时,实际
计算时调用的为最后一个高斯版本的可执行文件。
四、指令集测试:
G16 软件根据CPU 指令集的不同,安装了不同参数的编译
版本,测试对比:
结果与讨论:
1)计算效率:avx2 > avx > sse4 > legacy
2 )优先选择:TC4600 系统所有节点的CPU 均支持avx2 指令
集,因此在该系统上应优先选择使用avx2 版本G16。
五、CPU 节点相关测试:
5.1:E5v4 节点使用1、2、3、4 、7、14、28 核并行计算
5.2:F144 胖节点使用18、36、72、144 核并行计算
5.3:E3v5 节点使用1、2、3、4 核并行计算
5.4:nproc 与CPU 设置方法比较
结果与讨论:
1) 多类型CPU 配置的节点测试中,G16 在单节点内并行
计算时均具有很好的并行扩展性,使用进程核数增加一
倍时,计算效率提高近1 倍。
2 ) 在F144 胖节点上,并行144 核时仍具有很好的扩展性
潜力,受限于单节点CPU 核数,更多进程数的节点内
并行没有进行测试。
3 ) 使用相同进程核数时,E3v5 节点计算效率优于E5v4 节
点,分析与其CPU 主频较高有关,E3v5 CPU 主频
3.5GHz,而E5v4 CPU 主频2.4GHz 。且CPU 核数用
满时具有睿频现象,E3v5 CPU 主频最大可达
4.0GHz ,比较适合单节点并行的计算密集型应用。
4 ) 输入文件中Link 0 部分设置使用%CPU=**方式,具有
更好的计算效率,分析此种设置方式,进程与分配的
CPU 核绑定,可以减少在计算过程中的缓存损失。
六、GPU 节点相关测试:
6.1 设备支持:
TC4600 系统上配置K80 GPU 卡节点为k801-k804,驱
动版本:375.39,CUDA 版本8.0.61。查看GPU 节点配置:
单节点2 块k80 gpu 卡
单卡片2 个GK210 核心
单