![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
高性能计算
文章平均质量分 58
男孩李
被人嘲笑的梦想,越有实现的价值!
展开
-
Slurm如何运行AI的程序代码?
Slurm是一个用于管理和调度高性能计算集群上作业的开源工具。原创 2023-07-20 10:34:20 · 710 阅读 · 0 评论 -
高性能容器之Apptainer
Apptainer是一个开源容器平台,旨在简单,快速, 和安全。有许多容器平台可用,但 Apptainer 的设计 便于在共享系统和高性能计算 (HPC) 中使用 环境。原创 2023-05-24 23:00:48 · 2921 阅读 · 3 评论 -
centos下如何安装部署slurm集群
前面在中我们对Slurm调度系统进行了简单的概述,在此,将重点介绍在centos下如何安装部署Slurm集群。原创 2023-04-19 16:36:08 · 1641 阅读 · 0 评论 -
Slurm中集群配置文件之slurm_node.conf
slurm_node.conf 是 Slurm 集群的节点配置文件,包含有关集群节点的信息和设置。每个节点都需要有一个 slurm_node.conf 文件来配置节点特定的信息。这个文件通常位于节点的 /etc目录下,但可以通过在 slurm.conf 文件中设置 NodeName 属性来指定节点配置文件的位置。slurm_node.conf 文件包含了节点的许多配置信息,例如节点的名称、IP地址、架构类型、CPU核心数量、内存容量、GPU类型和数量等等。原创 2023-03-31 16:22:57 · 964 阅读 · 0 评论 -
Slurm中集群配置文件之slurmdbd.conf
是一个ASCII文件,它描述了Slurm数据库 守护程序 (SlurmDBD) 配置信息,它包含了与数据库交互的相关参数,如数据库类型、连接信息、认证方式等。该文件将始终与slurm.conf位于同一目录中。文件的内容不区分大小写,但节点名称除外 和文件。将处理配置文件中“#”后面的任何文本 作为该行末尾的评论。对配置文件的更改在重新启动 除非另有说明,否则 SlurmDBD 或守护程序接收 SIGHUP 信号。原创 2023-03-29 15:14:31 · 880 阅读 · 0 评论 -
Slurm中集群配置文件之slurm.conf
slurm.conf是一个ASCII文件,它描述了一般的Slurm 配置信息、要管理的节点、有关如何将这些节点分组到分区中,以及各种调度与这些分区关联的参数。此文件应为在群集中的所有节点上保持一致。可以通过设置SLURM_CONF在执行时修改文件位置 环境变量。Slurm 守护进程还允许您覆盖 使用“-f”的内置位置和环境提供的位置 选项。文件的内容不区分大小写,但节点名称除外 和分区。将处理配置文件中“#”后面的任何文本 作为该行末尾的评论。原创 2023-01-14 12:30:22 · 3767 阅读 · 0 评论 -
Unable to allocate resources: Invalid account or account/partition combination specified
原因:设置了需要account,但是没有和用户关联。Slurm安装配置报错。原创 2023-01-14 11:53:17 · 2099 阅读 · 0 评论 -
浅谈英特尔One API
如今,每种架构都需要单独的编程模型和工具链软件开发的复杂性限制了架构选择的自由。▪ 可与现有的编程模型和代码库 (C++、Fortran、Python、OpenMP 等)互操作,开发人员可放心。▪ 与现有的语言和编程模型兼容,包括 C++、Python、SYCL、OpenMP、Fortran 和 MPI。基于英特尔丰富的 CPU工具传承并扩展到 XPU 架构,一套完整的高级编译器、库以及移植、分析和调试器工具。协助开发人员 一次性将用 CUDA 编写的代码迁移至 DPC++,尽可能生成 人类可读的代码。原创 2022-09-20 10:12:31 · 1507 阅读 · 0 评论 -
Linux系统下OFED下载安装(离线版)
在这里选择5.1-2.5.8.0的版本下载。检查端口的模式是否为 InfiniBand。选择合适的OFED版本下载安装包。进入对应目录执行安装。原创 2022-08-30 10:16:40 · 5336 阅读 · 0 评论 -
Fatal error in PMPI_Init: Other MPI error, error stack:MPIR_Init_thread(138)
使用onepai 2021.3的编译器,编译程序后,用slurm调度系统跑作业报错:原创 2022-08-13 12:11:51 · 4936 阅读 · 0 评论 -
sbatch: error: Batch job submission failed: Invalid user id
这是因为提交作业时用户名不对。切换到普通用户提交即可。原创 2022-08-13 11:54:44 · 5565 阅读 · 0 评论 -
vasp计算任务报错:M_divide:can not subdivide 8 nodes by 6
1.这是因为设置的cpu核数(slurm脚本中小n参数)不能被6整除。修改小n参数为12,32等,6的倍数,即可。2.修改算例文件的INCAR中的NPAR参数,保证能被设置的核数整除。Vasp计算核数一定要能被INCAR中NPAR设定的数整除。打开算例文件的INCAR,可以看到我们设置的为6。这个是k点设置问题,把核数设置成6的倍数。...原创 2022-07-28 17:31:18 · 2316 阅读 · 0 评论 -
PMIX ERROR: ERROR in file gds_ds12_lock_pthread.c
使用OpenMPI运行程序的时候报这个错误。原创 2022-07-21 16:31:21 · 810 阅读 · 4 评论 -
module常用命令
1.加载/卸载命令use#加载module文件目录add/load modulefile [...] #加载modulefilerm/unload modulefile [...] #移除modulefilepurge 移除所用加载modulefileswitch [mod1] mod2 卸载mod1并加载mod22.列出/搜索命令list [-t|-l] #列出已加载模块avail [-d|-L] [mod] #列出可用模...原创 2022-04-18 13:21:16 · 2146 阅读 · 0 评论 -
Slurm中运行作业脚本示例
1.slurm作业脚本含义介绍#!/bin/bash#SBATCH -J sleep //指定作业名#SBATCH -p debug //指定队列#SBATCH --time=00:01:00 //指定运行时间(分钟 ) 注:需要设定为比较准确的时间,否则调度系统会超时强杀作业。若不设置该参数,继承队列的默认运行时长。请在程序中设置断点,保存中间结果,防止程序中断或者异常导致中间结果丢失。#SBATCH -N 2 //请求节点数#SBATCH -n 2 //请求核心数#SBATCH -原创 2022-03-16 17:40:25 · 7118 阅读 · 0 评论 -
浅谈Slurm作业调度系统
1.Slurm概念Slurm是一个开源,容错,高度可扩展的集群管理和作业调度系统,适用于大型和小型Linux集群。Slurm不需要对其操作进行内核修改,并且相对独立。作为集群工作负载管理器,Slurm有三个关键功能。首先,它在一段时间内为用户分配对资源(计算节点)的独占和/或非独占访问,以便他们可以执行工作。其次,它提供了一个框架,用于在分配的节点集上启动,执行和监视工作(通常是并行作业)。最后,它通过管理待处理工作的队列来仲裁资源争用。.........原创 2022-03-01 17:39:19 · 13586 阅读 · 2 评论 -
高性能计算之module工具
1.module简介在高性能计算(HPC)平台上为方便使用,集群软件环境通过modules工具管理环境变量。Environment module”(环境模块)是一组环境变量设置的集合。module可以被加载(load)、卸载(unload)、切换(switch),这些操作会改变相应的环境变量设置,从而让用户方便地在不同环境间切换。2.module查看命令帮助-H查看可用模块avail查看已加载模块list加载模块load卸载模块unload切换模块switch卸载全部模块原创 2022-02-27 10:43:37 · 1491 阅读 · 0 评论 -
Slurm常用命令总结
查看slurm中集群列表的命令sacctmgr show cluster修改配置文件后使配置文件生效scontrol reconfig或重启 slurmctld服务显示slurm系统配置命令scontrol show configsystemctl启动、停止、重启、查看slurmctld.service的命令systemctlstartslurmctld.servicesystemctlstop slurmctld.servicesystemct...原创 2021-12-31 09:55:29 · 14007 阅读 · 0 评论 -
HPL测试中编译和清空之前编译的命令
编译make arch=Linux_PII_CBLAS有时候,我们更改过Make.Linux_PII_CBLAS文件之后,需要重新编译,这时候,需要清空之前的编译。make clean arch=Linux_PII_CBLAS原创 2021-11-16 20:29:44 · 388 阅读 · 0 评论 -
CUDA编程模型
GPU计算基础知识CUDA编程模型是一个异构模型,需要CPU和GPU协同工作 在CUDA中,host和device是两个重要的概念,我们用host指代CPU及其内存,而用device指代GPU及其内存。 CUDA程序中既包含host程序,又包含device程序,它们分别在CPU和GPU上运行。 host与device直接可以进行通信,这样它们之间可以进行数据拷贝。CUDA程序执行流程 1.分配host内存,并进行数据初始化; 2.分配device内存,并从host将数据拷贝到devi..原创 2020-12-17 14:16:54 · 416 阅读 · 0 评论 -
什么是GPU计算
什么是GPU计算Nvidia公式发布了了CUDA,它是建立在NVIDA的CPUs上的一个通用并行计算平台和编程模型,基于CUDA编程可以利用GUPs的并行计算引擎来更加高效地解决比较复杂的计算难题 GPU并不是一个独立运行的计算平台,而需要与CPU协同工作,可以看成是CPU的协处理器,因此当我们在说GPU并行计算时,其实是指的基于CPU+GPU的异构计算架构。 在异构计算架构中,GPU与CPU通过PCle总线连接在一起来协同工作 CPU所在位置称为主机端(host),而GPU所在位置称为设备端(d原创 2020-12-09 14:57:35 · 3401 阅读 · 0 评论