- 压力测试
- 获取gpu burn:https://codeload.github.com/wilicc/gpu-burn/zip/master
- 解压缩:unzip gpu-burn-master.zip
- 进入目录编译:cd gpu-burn-master; make
- 执行:
- 直接全跑:./gpu_burn 100
- 指定某几张卡:export CUDA_VISIBLE_DEVICES=0,1;./gpu_burn 100
- 故障定位
- 找出故障卡:dmesg -I err,拿到错误卡的Bus-Id
- 根据Bus-Id找出对应GPU编号(通过nvidia-smi查看),假设是device 2
- export CUDA_VISIBLE_DEVICES=0,1,3,4 # 2不写在里面
- ./gpu_burn 100
- 跑完之后关机,找出没有温度的那张卡,即为故障卡
GPU压力测试和故障定位
最新推荐文章于 2024-09-05 23:11:02 发布