目录
kaldi gpu slurm集群训练配置
1、slurm配置
slurm.conf修改:
GresTypes=gpu
NodeName= slave1 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
NodeName= slave2 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
注:通过lspci | grep -i nvidia查看gpu型号
2、gres.conf
增加gres.conf文件
NodeName=slave1 Name=gpu File=/dev/nvidia0
NodeName=slave1 Name=gpu File=/dev/nvidia1
NodeName=slave2 Name=gpu File=/dev/nvidia0
NodeName=slave2 Name=gpu File=/dev/nvidia1
3.kaldi中配置
kaldi中slurm.conf修改:
option gpu=* -N1 -n1 -p compute --mem=4G --gres-gpu:$0 --cpus-per-task=6 --time=72:0:0
kaldi中slurm.pl修改:
option gpu=* -p compute --mem=4G --gres-gpu:$0 --time=4:0:0