GPU:使用gpu-burn压测GPU

本文介绍了如何使用gpu_burn这款工具对GPU进行性能测试,包括下载、编译、运行以及如何识别并排除故障GPU的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介:在测试GPU的性能问题时,通常需要考虑电力和散热问题。使用压力测试工具,可以测试GPU满载时的状态参数(如温度等)。gpu_burn是一个有效的压力测试工具。通过以下步骤可以进行测试。

官网:

http://www.wili.cc/blog/gpu-burn.html

1、下载软件gpu-burn:

wget https://codeload.github.com/wilicc/gpu-burn/zip/master

2、解压安装包:

unzip gpu-burn-master.zip

3、进入目录编译(确保cuda环境变量已经配置成功 nvcc -v能显示结果):

cd gpu-burn-master
make

4、编译成功后,会在当前目录生成 gpu_burn 这个文件:

gpu_burn

5、默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置120,稳定性测试为600等:

% ./gpu_burn 120
GPU 0: GeForce GTX 1080 (UUID: GPU-f998a3ce-3aad-fa45-72e2-2898f9138c15)
GPU 1: GeForce GTX 1080 (UUID: GPU-0749d3d5-0206-b657-f0ba-1c4d30cc3ffd)
Initialized device 0 with 8110 MB of memory (7761 MB available, using 6985 MB of it), using FLOATS
Initialized device 1 with 8113 MB of memory (7982 MB available, using 7184 MB of it), using FLOATS
10.8%  proc'd: 3472 (4871 Gflop/s) - 3129 (4683 Gflop/s)   errors: 0 - 0   temps: 56 C - 56 C 
  Summary at:   Mon Oct 31 10:32:22 EET 2016

22.5%  proc'd: 6944 (4786 Gflop/s) - 7152 (4711 Gflop/s)   errors: 0 - 0   temps: 61 C - 60 C 
  Summary at:   Mon Oct 31 10:32:36 EET 2016

33.3%  proc'd: 10850 (4843 Gflop/s) - 10728 (4633 Gflop/s)   errors: 2264 (WARNING!) - 0   temps: 63 C - 61 C 
  Summary at:   Mon Oct 31 10:32:49 EET 2016

44.2%  proc'd: 14756 (4861 Gflop/s) - 13857 (4675 Gflop/s)   errors: 1703 (WARNING!) - 0   temps: 66 C - 63 C 
  Summary at:   Mon Oct 31 10:33:02 EET 2016

55.0%  proc'd: 18228 (4840 Gflop/s) - 17433 (4628 Gflop/s)   errors: 3399 (WARNING!) - 0   temps: 69 C - 65 C 
  Summary at:   Mon Oct 31 10:33:15 EET 2016

66.7%  proc'd: 22134 (4824 Gflop/s) - 21009 (4652 Gflop/s)   errors: 3419 (WARNING!) - 0   temps: 70 C - 65 C 
  Summary at:   Mon Oct 31 10:33:29 EET 2016

77.5%  proc'd: 25606 (4844 Gflop/s) - 25032 (4648 Gflop/s)   errors: 5715 (WARNING!) - 0   temps: 71 C - 66 C 
  Summary at:   Mon Oct 31 10:33:42 EET 2016

88.3%  proc'd: 29078 (4835 Gflop/s) - 28161 (4602 Gflop/s)   errors: 7428 (WARNING!) - 0   temps: 73 C - 67 C 
  Summary at:   Mon Oct 31 10:33:55 EET 2016

100.0%  proc'd: 33418 (4752 Gflop/s) - 32184 (4596 Gflop/s)   errors: 9183 (WARNING!) - 0   temps: 74 C - 68 C 
Killing processes.. done

Tested 2 GPUs:
  GPU 0: FAULTY
  GPU 1: OK

6、支持指定某几张卡跑,比如指定0和3号卡:

export CUDA_VISIBLE_DEVICES=0,3
./gpu_burn 100

如何找出故障卡:
1、dmesg -l err 筛选出错误卡的Bus-Id:

图片

2、根据Bus-Id找出对应的GPU卡编号,在跑测试的时候排除它,比如机器8张卡,device 5 故障,则参数应该设置成:

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,6,7   #2不写在里面
./gpu_burn 120

3、 跑完之后关机,找出那张没有温度的卡,即故障卡。

图片

1 页 Edit by Joson https://www.baidu.com/p/happy_Joson Stree_GPU 试 一、试介绍 常搞服务器试的,会有很多试工具,比如试硬盘的 iometer,网络 试的有 IxChariot,IPfer,试内存的有 stree,整机试 HPC_Breakin 等,但 整机GPU 或是显卡的工具就比较少,专业的试是必须要有的。 很多个人或是公司买了 GPU 服务器,显卡回来,安装上去后,不知道如 何整机试,怎么试,怎么检是否有问题,做开发设计的怎么试主板 是否有 bug,整机散热调优方案,功耗试等,通过使使用 stree_GPU 工具,可 以使 GPU/显卡发挥 90%以上的性能,从而发现存在的隐患。 直接介绍一套简单的试工具 Stree_GPU, 适合在 windows 7,win8,win10,2008 R2 等 windows 系统下试的。 2 页 Edit by Joson https://www.baidu.com/p/happy_Joson 1、 准备工作环境 你的机器安装上显卡/GPU 卡后,然后再安装上述的操作系统,机器需要连外 网才能使用 Stree_GPU 试。但它不占用外网资源。 2、安装驱动 这个不用我说了,你电脑上驱动都要安装,GPU/显卡一般是基于 NVIDIA 芯 片开发的,驱动一般直接到它官网上下载,或是安装个驱动人生,然后让它帮你 全部安装完驱动,省事^_^ 二、 试工具使用介绍 1、Stree_GPU 工具使用介绍,此 stree_GPU 软件适用 windows 系统下 GPU/显卡专业试工具 stree_GPU 试工具下载: https://pan.baidu.com/s/1PnxbcIQvM9Y4YtVude7WNg 2、首先你的机器在 windows 下环境配置好,即显卡驱动要安装上,可以在 NVIDIA 官网下载 cuda 程序安装,能识别到你的显卡并能调休; 3、确保你试的机器连通外网,因为试时要模拟卡的力(算力) ; 4、把 Stree_GPU 程序解后拷贝到如 c 盘根目录下,路径不要有中文; 5、解后在 Stree_GPU 目录里,右键以管理员权限运行 stree_GPU.bat 注意观察,如果执行之后屏幕上没有提示错误提示,没有红色的提示,则表示 开始跑起来了,过一会才会有结果,比如会提示有 GPU0:xxxMh/s,这里只要有 数字出现就表示成功了,如果有多张卡,这里会列出来有 GPU0,GPU1…..。如下 3 页 Edit by Joson https://www.baidu.com/p/happy_Joson 图所示 机器力程序已经跑起来了,那么就可以在功耗仪上读取电,电流,功耗 数值,如下图所示。 同时可以通过 BMC 管理界面,或是第三方的一些软件,可以监控到机器的各个 部件温度曲线的变化。试时间越长,如果曲线波动不大,说明机器散热良好。 4 页 Edit by Joson https://www.baidu.com/p/happy_Joson 注意事项: 因为试,注意机器的散热。风扇调全速转。机器跑起来了,此时可以试 整机的功耗,散热、主板的供电,整机供电等等,一般试时长 24H,这样可以 检验整机及部件稳定性等。这是最简单但最有效果的GPU/显卡方案。 另外需要注意的是,机器要保持连接外网,并且试过程不要断开网络,否则 试不能进行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值