GPU:使用gpu-burn压测GPU

简介:在测试GPU的性能问题时,通常需要考虑电力和散热问题。使用压力测试工具,可以测试GPU满载时的状态参数(如温度等)。gpu_burn是一个有效的压力测试工具。通过以下步骤可以进行测试。

官网:

http://www.wili.cc/blog/gpu-burn.html

1、下载软件gpu-burn:

wget https://codeload.github.com/wilicc/gpu-burn/zip/master

2、解压安装包:

unzip gpu-burn-master.zip

3、进入目录编译(确保cuda环境变量已经配置成功 nvcc -v能显示结果):

cd gpu-burn-master
make

4、编译成功后,会在当前目录生成 gpu_burn 这个文件:

gpu_burn

5、默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置120,稳定性测试为600等:

% ./gpu_burn 120
GPU 0: GeForce GTX 1080 (UUID: GPU-f998a3ce-3aad-fa45-72e2-2898f9138c15)
GPU 1: GeForce GTX 1080 (UUID: GPU-0749d3d5-0206-b657-f0ba-1c4d30cc3ffd)
Initialized device 0 with 8110 MB of memory (7761 MB available, using 6985 MB of it), using FLOATS
Initialized device 1 with 8113 MB of memory (7982 MB available, using 7184 MB of it), using FLOATS
10.8%  proc'd: 3472 (4871 Gflop/s) - 3129 (4683 Gflop/s)   errors: 0 - 0   temps: 56 C - 56 C 
  Summary at:   Mon Oct 31 10:32:22 EET 2016

22.5%  proc'd: 6944 (4786 Gflop/s) - 7152 (4711 Gflop/s)   errors: 0 - 0   temps: 61 C - 60 C 
  Summary at:   Mon Oct 31 10:32:36 EET 2016

33.3%  proc'd: 10850 (4843 Gflop/s) - 10728 (4633 Gflop/s)   errors: 2264 (WARNING!) - 0   temps: 63 C - 61 C 
  Summary at:   Mon Oct 31 10:32:49 EET 2016

44.2%  proc'd: 14756 (4861 Gflop/s) - 13857 (4675 Gflop/s)   errors: 1703 (WARNING!) - 0   temps: 66 C - 63 C 
  Summary at:   Mon Oct 31 10:33:02 EET 2016

55.0%  proc'd: 18228 (4840 Gflop/s) - 17433 (4628 Gflop/s)   errors: 3399 (WARNING!) - 0   temps: 69 C - 65 C 
  Summary at:   Mon Oct 31 10:33:15 EET 2016

66.7%  proc'd: 22134 (4824 Gflop/s) - 21009 (4652 Gflop/s)   errors: 3419 (WARNING!) - 0   temps: 70 C - 65 C 
  Summary at:   Mon Oct 31 10:33:29 EET 2016

77.5%  proc'd: 25606 (4844 Gflop/s) - 25032 (4648 Gflop/s)   errors: 5715 (WARNING!) - 0   temps: 71 C - 66 C 
  Summary at:   Mon Oct 31 10:33:42 EET 2016

88.3%  proc'd: 29078 (4835 Gflop/s) - 28161 (4602 Gflop/s)   errors: 7428 (WARNING!) - 0   temps: 73 C - 67 C 
  Summary at:   Mon Oct 31 10:33:55 EET 2016

100.0%  proc'd: 33418 (4752 Gflop/s) - 32184 (4596 Gflop/s)   errors: 9183 (WARNING!) - 0   temps: 74 C - 68 C 
Killing processes.. done

Tested 2 GPUs:
  GPU 0: FAULTY
  GPU 1: OK

6、支持指定某几张卡跑,比如指定0和3号卡:

export CUDA_VISIBLE_DEVICES=0,3
./gpu_burn 100

如何找出故障卡:
1、dmesg -l err 筛选出错误卡的Bus-Id:

图片

2、根据Bus-Id找出对应的GPU卡编号,在跑测试的时候排除它,比如机器8张卡,device 5 故障,则参数应该设置成:

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,6,7   #2不写在里面
./gpu_burn 120

3、 跑完之后关机,找出那张没有温度的卡,即故障卡。

图片

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值