linux环境新NVIDIA-GPU服务器进行压力测试

实验室新进购的服务器。

机型为:4卡GPU,GTX2080ti。

新的服务器需要对其进行压力测试,测试服务器在显存满载的情况下,能否保证散热正常、计算精度正常等等。

本次压力测试,用到的程序gpu_burn实现,搜索了很长时间的资料,记录下来。

参考资料:Linux 系統 NVIDIA GPU 顯示卡壓力測試


首先在gpu_burn官网下载代码

官网链接:点击进入gpu_burn官网

这里我下载的是gpu_burn-0.9.tar.gz (compute profile 30, compatible w/ CUDA 9) 。

wget http://wili.cc/blog/entries/gpu-burn/gpu_burn-0.9.tar.gz

然后对文件进行解压(tar -zxvf   filename)

进入gpu_burn文件内:

cd gpu_burn

编译文件&#

参考资源链接:[GPU服务器显卡压力测试NVIDIA-smi工具与方法](https://wenku.csdn.net/doc/1uagk2tpc1?utm_source=wenku_answer2doc_content) 在进行GPU服务器显卡压力测试时,NVIDIA-smi工具是一个强大的辅助工具,它不仅可以监控显卡的各种状态信息,还能执行一些基准测试来评估显卡性能。为了自动化这一过程并监控显存使用和显卡温度,你可以编写一个脚本来执行这些任务。 首先,确保你的系统中安装了NVIDIA驱动和NVIDIA-smi工具。在Linux系统中,NVIDIA-smi通常包含在NVIDIA驱动安装包中,或者可以从NVIDIA官网下载。在Windows系统中,它通常会与驱动一起安装。 接下来,编写一个脚本,可以使用Shell脚本(在Linux中)或PowerShell脚本(在Windows中)。脚本的基本步骤可能包括: 1. 使用NVIDIA-smi命令获取初始的GPU状态信息,例如显存使用和温度。 2. 执行压力测试。这可以通过运行NVIDIA-smi提供的基准测试命令来完成,如`nvidia-smi --format=csv --query-gpu=memory.used,memory.free,temperature.gpu --loop=1`。该命令将以CSV格式每秒输出一次显存使用和温度信息。 3. 设定压力测试的时间长度,例如10分钟,通过循环执行上述命令。 4. 使用脚本分析工具(如awk、grep、sed等)对收集到的数据进行处理,提取出关键信息,并将这些信息记录到日志文件中。 5. 在测试结束后,分析日志文件,比较不同时间点的数据,以确定显卡在高负载下的性能表现和稳定性。 监控显卡的温度和显存使用情况对于确保GPU服务器稳定运行至关重要。如果显存使用接近或达到最大值,或者温度持续在较高水平,可能表明系统在某些条件下存在性能瓶颈或散热问题。通过自动化脚本的持续监控,可以在问题发生之前及时发现并采取措施。 此外,为了确保测试的准确性和全面性,建议在多种不同的工作负载下重复测试,并结合实际应用场景来设计测试案例。测试完成后,对结果进行详细分析,有助于做出更有针对性的硬件升级决策和性能优化措施。 总的来说,通过NVIDIA-smi工具和自动化脚本结合使用,可以有效地对GPU服务器显卡进行压力测试,并实时监控显存使用和温度,确保服务器的性能和稳定性。对于希望深入了解这些技术和方法的用户,我推荐查看《GPU服务器显卡压力测试NVIDIA-smi工具与方法》一书,它提供了更全面的技术细节和实用建议。 参考资源链接:[GPU服务器显卡压力测试NVIDIA-smi工具与方法](https://wenku.csdn.net/doc/1uagk2tpc1?utm_source=wenku_answer2doc_content)
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值