slurm19.05 cgroup.conf配置文件

centos安装slurm19.05步骤,https://blog.csdn.net/qq_34149581/article/details/101902935

###
#
# Slurm cgroup support configuration file
#
# See man slurm.conf and man cgroup.conf for further
# information on cgroup configuration parameters
#--
CgroupAutomount=yes

CgroupReleaseAgentDir=/tmp/slurm
TaskAffinity=no
ConstrainCores=yes
ConstrainRAMSpace=no
MaxRAMPercent=98
AllowedRAMSpace=96
 

### 单机 Ubuntu 上以 Root 权限配置 Slurm 实现 CPU 监控 要在单机 Ubuntu 系统中使用 root 权限配置 Slurm 并实现 CPU 监控功能,需要正确编写 `slurm.conf` 和 `cgroup.conf` 配置文件。以下是具体说明: --- #### 1. 编写 `slurm.conf` 文件 `slurm.conf` 是 Slurm 的核心配置文件,用于定义集群、节点以及分区等相关信息。以下是一个适合单机环境的示例配置: ```plaintext # # Single-node Slurm cluster configuration example # # General settings ClusterName=single_node_cluster # 定义集群名称[^3] ControlMachine=localhost # 控制机器为主机本身 SlurmUser=root # 使用 root 用户运行 Slurm StateSaveLocation=/var/lib/slurm # 存储状态的位置 SlurmctldLogFile=/var/log/slurmctld.log # Controller 日志文件路径 SlurmdLogFile=/var/log/slurmd.log # Daemon 日志文件路径 SlurmctldDebug=verbose # 设置调试级别为详细模式 SlurmdDebug=verbose # 启用更详细的日志记录 # Compute nodes definition NodeName=node01 NodeAddr=127.0.0.1 CPUs=$(nproc) RealMemory=$(free -m | awk '/Mem:/ {print $2}') State=UNKNOWN # 定义当前主机为计算节点[^3] # Partitions definition PartitionName=compute Nodes=node01 Default=YES MaxTime=INFINITE State=UP # 创建一个名为 compute 的分区[^3] # Accounting and job tracking JobAcctGatherType=jobacct_gather/cgroup # 使用 cgroups 收集作业统计信息[^3] ``` 在此配置中: - `CPUs=$(nproc)` 动态获取系统中的可用 CPU 核心数。 - `RealMemory=$(free -m ...)` 动态检测物理内存大小(单位 MB)。 - `JobAcctGatherType=jobacct_gather/cgroup` 表明将基于 cgroups 技术跟踪作业资源消耗。 --- #### 2. 编写 `cgroup.conf` 文件 `cgroup.conf` 文件主要用于配置 Slurm 对 Linux Control Groups (cgroups) 的支持。以下是一个典型的单机配置示例: ```plaintext # # Slurm cgroup support configuration file # CgroupAutomount=yes # 自动挂载 cgroups 文件系统[^1][^2] ConstrainCores=no # 不限制进程使用的 CPU 核心数量[^1] ConstrainRAMSpace=no # 不强制限制 RAM 使用空间 TaskPluginParam=Sched/HetGroupSupport=off # 关闭异构组调度支持 ``` 此配置启用了自动挂载 cgroups 文件系统,并禁用了某些严格的资源限制选项以便于测试和开发用途。 --- #### 3. 初始化和启动服务 完成以上两个配置文件后,按照以下步骤初始化并启动 Slurm 服务: ##### (1)创建必要的目录结构 确保所需目录存在且具有适当权限: ```bash mkdir -p /var/lib/slurm chown -R root:root /var/lib/slurm chmod 755 /var/lib/slurm ``` ##### (2)加载 cgroups 内核模块 确认已加载 cgroups 所需的内核模块: ```bash modprobe cgroup mount -t tmpfs none /sys/fs/cgroup for subsystem in $(ls /sys/fs/cgroup); do mkdir -p /sys/fs/cgroup/$subsystem mount -t cgroup -o $subsystem none /sys/fs/cgroup/$subsystem done ``` ##### (3)启动 Slurm 组件 依次启动控制器和服务端守护程序: ```bash slurmctld slurmd scontrol reconfigure # 应用最新配置更改 ``` 验证服务是否正常工作: ```bash sinfo # 查看节点和分区的状态 squeue # 列出正在运行的任务队列 ``` --- ### 注意事项 - 如果计划长期运行,请将上述命令集成到 `/etc/rc.local` 或 systemd service 文件中以确保重启后自动生效。 - 可能需要额外安装依赖包如 `libcgroup-tools` 提供全面的功能支持。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值