【踩坑】解决运行一段时间GPU计算后忽然变得很慢

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~


目录

发现问题

问题分析

修复思路

思路一

思路二

思路二对应代码


这个问题真的找了我好久,但说起来其实也简单,就是GPU温度太高了

问题复现视频演示:【踩坑】GPU运算使温度升高导致计算性能下降_哔哩哔哩_bilibili

发现问题

1、运行监控指令:

nvidia-smi dmon -i 00000000:41:00.0 -s pucvmet --gpm-metrics 10

2、运行你的代码,等到出问题。

3、看图就知道,密集的GPU运算,导致GPU温度达到限制了。高温限制是会影响性能的。

问题分析

本节内容来自:对于GPU显卡来说,多热算太热?

对于GPU来说,温度大致分为以下几个层次:

  • 60°C以下 - 低温,GPU性能基本未发挥。
  • 60-75°C - 正常工作温度,GPU性能发挥良好且寿命长。
  • 75-85°C - 开始偏热,但性能基本无影响,如果长时间在此范围可能缩短服务寿命。
  • 85-95°C - 极限工作温度,性能会受影响。如果长期工作在此温度就可能锁频下降性能。
  • 95°C以上 - 非常热乃至太热,此温度下GPU性能将受很大影响,极易发生故障或损坏元件。

一般来说:

  • 75°C以下算正常,保持这个度数(或更低)的温度应该可以让您安心,因为您的 GPU 正在发挥其最大潜力。
  • 75-85°C需要注意,保持通风以避免长期这样。
  • 85°C以上已经属于比较热了,需要改进散热或降低负荷。
  • 95°C以上就已经属于非常危险的热度域,需要立即采取措施降温。
  • 所以对GPU来说,75°C应该算做热的标准,85°C开始需要特别注意,95°C以上就可能导致不可恢复的损坏。

对GPU来说,长时间工作在85°C以上,会有以下影响:

  • 加速老化速度。高温环境下,GPU内各个组件如芯片封装材料、焊料连接等将会以更快的速度老化和失效。
  • 故障率增加。85°C及以上的高温会促进GPU内部各种微观装配和结构性问题的暴露,从而加大故障发生概率。
  • 缩短可用年限。85°C高温下,GPU将在5-7年内即达到其可用服务寿命极限,比常温使用寿命短1-3年。
  • 锁频降级性能。为保护内部元器件,85°C时GPU极有可能自动下调时钟频率来降温,导致长期性能下降。大多数现代显卡都具有固有的热保护机制,当其内部温度过高时,该机制会导致 GPU 节流。驱动程序采取的第一步是限制性能,以减少过热 GPU 的负载。尽管采取了这些措施,如果温度继续升高,系统将开始强制关闭。这通常可以防止对 GPU 造成任何物理损坏,但如果经常发生过热,永久性硬件损坏将是不可避免的。

        所以总体来说,如果GPU显卡长期工作在85°C以上高温,会明显缩短GPU的平均使用寿命,从1-3年不等,同时也影响其锁定频率和稳定性能输出,建议尽量降低和控制工作温度。

修复思路

思路一

来自对于GPU显卡来说,多热算太热?

        这里是一些建议,可以帮助降低GPU的工作温度:

  • 清除尘垢。定期清洁GPU风扇及散热片上积聚的灰尘,以保持散热效率。
  • 优化固件。检查显卡驱动是否为最新版本,更新可以改善电源管理降温。
  • 散热风扇速度。调整风扇转速提高冷风流量对GPU进行更有效的降温。
  • 流通散热。确保GPU周围有足够通风间隙,有助热空气迅速排出。
  • 改用散热板。更换散热更强的板后型显卡可以有效降温5-10°C。
  • 升级电源。GPU功耗大时需要足够功率输出的电源降温支持。
  • 温控软件。使用温控软件根据温度自动调整GPU时钟、风扇速度等。
  • 水冷模式。水冷传热效率高,能最大限度降低GPU温度。
  • 温度监测。实时了解GPU温曲线有助于查找问题热点进行改进。

        以上方法结合使用可以有效帮助控制GPU的工作温度,延长使用寿命。

思路二

        GPU的降温挺快的,不调用GPU运算,它的温度就会开始降低,因此可以考虑适当的降低GPU的连续使用时间。

思路二对应代码

        或者,可以在运行代码前,等待GPU的问题降低到一定的程度再执行。给个自己写的参考代码吧:

def check_gpu_temperatures(gpu_ids, temp_threshold=40, timeout=None):
    gpu_ids_list = gpu_ids.split(',')
    start_time = time.time()
    while True:
        temperatures = []
        all_below_threshold = True
        for gpu_id in gpu_ids_list:
            result = subprocess.run(['nvidia-smi', '-i', gpu_id, '--query-gpu=temperature.gpu', '--format=csv,noheader,nounits'], stdout=subprocess.PIPE)
            temp = int(result.stdout.decode('utf-8').strip())
            temperatures.append(f'GPU {gpu_id}: {temp}°')
            if temp > temp_threshold: all_below_threshold = False
        if all_below_threshold: 
            print('>> 当前GPU温度: ' + ' | '.join(temperatures))
            break
        print(f'>> 为防止GPU高温导致性能限制,等待降温中({temp_threshold}°): ' + ' | '.join(temperatures), end='\r')
        if timeout and (time.time() - start_time) > timeout:
            print('\n已达超时,不在等待 GPU 温度下降。')
            break
        time.sleep(1)
    print()

        用法:

gpus = '2,3,4'
check_gpu_temperatures(gpu_ids=gpus , temp_threshold=60, timeout=None)

        效果:

温度监控UI代码

        为了方便监控GPU的温度:

import sys
import subprocess
import threading
import time
import numpy as np
import tkinter as tk
from tkinter import ttk
from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg
from matplotlib.figure import Figure

class RealtimePlot:
    def __init__(self, parent, title, ylabel):
        self.fig = Figure(figsize=(5, 2), dpi=100)  # 设定图像尺寸
        self.ax = self.fig.add_subplot(111)
        self.ax.set_title(title)
        self.ax.set_ylabel(ylabel)
        self.ax.set_xlabel('Time')
        self.xdata = []
        self.ydata = []
        self.line, = self.ax.plot(self.xdata, self.ydata, 'r-')
        self.canvas = FigureCanvasTkAgg(self.fig, master=parent)
        self.canvas.draw()
        self.canvas.get_tk_widget().pack(side=tk.LEFT, fill=tk.BOTH, expand=1)

    def update_plot(self, y):
        self.xdata.append(time.time())
        self.ydata.append(y)
        if len(self.xdata) == 1:  # 防止 transformation singular 错误
            self.ax.set_xlim(self.xdata[0], self.xdata[0] + 1)
        else:
            self.ax.set_xlim(self.xdata[0], self.xdata[-1])
        self.line.set_xdata(self.xdata)
        self.line.set_ydata(self.ydata)
        self.ax.relim()
        self.ax.autoscale_view()
        self.canvas.draw()

    def resize(self, event):
        self.fig.set_size_inches(event.width / self.canvas.get_tk_widget().winfo_fpixels('1i'),
                                 event.height / self.canvas.get_tk_widget().winfo_fpixels('1i'))
        self.canvas.draw()

class GPU_MonitorApp:
    def __init__(self, root):
        self.root = root
        self.root.title("nvidia-smi dmon Realtime Plot")

        self.plots = []
        gpu_ids = ['00000000:3d:00.0', '00000000:3e:00.0', '00000000:1D:00.0', '00000000:1E:00.0', '00000000:41:00.0']

        main_frame = tk.Frame(root)
        main_frame.pack(fill=tk.BOTH, expand=1)

        canvas = tk.Canvas(main_frame)
        canvas.pack(side=tk.LEFT, fill=tk.BOTH, expand=1)

        scrollbar_y = tk.Scrollbar(main_frame, orient=tk.VERTICAL, command=canvas.yview)
        scrollbar_y.pack(side=tk.RIGHT, fill=tk.Y)

        scrollbar_x = tk.Scrollbar(root, orient=tk.HORIZONTAL, command=canvas.xview)
        scrollbar_x.pack(side=tk.BOTTOM, fill=tk.X)

        canvas.configure(yscrollcommand=scrollbar_y.set, xscrollcommand=scrollbar_x.set)
        canvas.bind('<Configure>', lambda e: canvas.configure(scrollregion=canvas.bbox("all")))

        second_frame = tk.Frame(canvas)
        canvas.create_window((0, 0), window=second_frame, anchor="nw")

        plot_width = 500  # 每个图的宽度(以像素为单位)
        plot_height = 200  # 每个图的高度(以像素为单位)

        for i, gpu_id in enumerate(gpu_ids):
            frame = ttk.Frame(second_frame, width=plot_width * 2, height=plot_height)
            frame.pack(side=tk.TOP, fill=tk.BOTH, expand=1)
            plot_power = RealtimePlot(frame, f"GPU {i} Power Usage", "Power (W)")
            plot_temp = RealtimePlot(frame, f"GPU {i} Temperature", "Temperature (C)")
            self.plots.append((plot_power, plot_temp))
            frame.bind("<Configure>", plot_power.resize)
            frame.bind("<Configure>", plot_temp.resize)

        # 计算窗口初始尺寸
        window_width = plot_width * 2 + 40  # 两个图表并排 + 滚动条和边距
        window_height = plot_height * len(gpu_ids) + 40  # 每个GPU占一行 + 滚动条和边距
        self.root.geometry(f"{window_width}x{window_height}")

        self.start_monitoring(gpu_ids)

    def start_monitoring(self, gpu_ids):
        self.monitor_thread = threading.Thread(target=self.monitor_gpu, args=(gpu_ids,))
        self.monitor_thread.daemon = True
        self.monitor_thread.start()

    def monitor_gpu(self, gpu_ids):
        command = ['nvidia-smi', 'dmon', '-i', ','.join(gpu_ids), '-s', 'pm']
        process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        skip_header = True  # 用于跳过表头
        for line in process.stdout:
            try:
                if skip_header:
                    if line.startswith('#'):
                        continue  # 跳过表头行
                    skip_header = False

                parts = line.split()
                if len(parts) == 0 or parts[0] == '#':
                    continue  # 跳过表头或空行
                if len(parts) >= 7 and parts[0].isdigit():  # 确保行数据完整
                    gpu_idx = int(parts[0])
                    if gpu_idx < len(gpu_ids):
                        gpu_power = float(parts[1]) if parts[1] != '-' else None
                        gpu_temp = float(parts[2]) if parts[2] != '-' else None

                        print(f"GPU {gpu_idx} power: {gpu_power}, temp: {gpu_temp}")  # Debug info

                        if gpu_power is not None:
                            self.plots[gpu_idx][0].update_plot(gpu_power)
                        if gpu_temp is not None:
                            self.plots[gpu_idx][1].update_plot(gpu_temp)
            except Exception as e:
                print(f"Error parsing line: {line}\n{e}")

if __name__ == '__main__':
    root = tk.Tk()
    app = GPU_MonitorApp(root)
    root.mainloop()

在这个系列课程中,来自微软的权威技术专家将向您解释Windows操作系统的内部工作原理,从系统架构的大局观出发,逐步展示进程、线程、安全机制、内存管理和存储管理等子系统的工作方式。通过对底层原理的揭示,使您更进一步的理解Windows上各类程序的工作方式和如何进行错误诊断及性能化。 本次课程的内容编排得到了国内知名技术作家,《Windows Internals》一书的中文译者,潘爱民先生的大力支持,同时TechNet也邀请到了众多微软一线技术专家进行讲解。这是一个为IT专业人员量身定做的Windows内部知识课程,在介绍原理的同时,也紧密地围绕实际案例和常见的故障进行分析点评。这是一个系统的学习Windows底层工作机制的好机会,课程内容深入浅出,精彩纷呈,绝对不容错过。 深入研究Windows内部原理系列之一:Windows的昨天、今天和明天 讲师信息:潘爱民 2007年01月25日 14:00-15:30 Level: 300 著名技术作家、微软亚洲研究院研究员潘爱民老师将在这次课程中跟听众分享Windows的发展历程和技术精萃,描绘操作系统的体系架构、Vista的内核变更以及今后版本Windows的发展趋势。 深入研究Windows内部原理系列之二:Windows体系结构-从操作系统的角度 讲师信息:张银奎 2007年01月26日 14:00-15:30 Level: 400 操作系统是计算机系统的灵魂和管理中心,也是软件系统中最复杂的部分。本讲座将以生动的讲解和丰富的演示带您领略Windows操作系统的核心架构和主要组件,包括HAL、内核、执行体、系统进程(IDLE、SMSS.EXE、WinLogon.EXE)和Windows子系统(CSRSS.EXE、WIN32K.SYS以及子系统DLL)等。并讨论中断管理、对象管理、和异常分发等系统机制和实现这些机制的基本数据结构。 深入研究Windows内部原理系列之三:Windows体系结构-从应用程序的角度 讲师信息:曾震宇 2007年01月29日 14:00-15:30 Level: 400 从服务器软件到Office办公应用,从联网游戏到即时消息,不管这些应用的复杂程度如何,他们都是一个个在操作系统控制和管理之下的可执行程序。本次课程邀请微软全球技术中心专家级工程师,为各位讲解一个程序是如何经历从启动、分配资源、运行、结束这一连串的过程,并且介绍其中的重要概念和排错诊断技巧。 深入研究Windows内部原理系列之四:Windows操作系统中的重要基本概念 讲师信息:高宇 2007年01月30日 14:00-15:30 Level: 400 进程、线程、资源分配、内存管理、Win32 API、服务、安全,这些是工作中常常提及但是又无法深入理解的神秘概念。在这次课程中,讲师将介绍Windows中最常见与最重要的一些基本概念. 使大家能够顺利地参与到本系列之后的讨论中去。 深入研究Windows内部原理系列之五:Windows Sysinternals工具集介绍 讲师信息:彭爱华 2007年01月31日 14:00-15:30 Level: 400 Sysinternals Suite(Windows Sysinternals工具集)包含一系列免费的系统工具,其中有大名鼎鼎的Process Explorer、FileMon、RegMon等(在Windows Vista下,FileMon和RegMon则被Process Monitor所代替),如果把系统管理员比喻成战士的话,那么Sysinternals Suite就是我们手中的良兵利器。熟悉和掌握这些工具,并且对Windows的体系有一定的了解,将大幅度的提高日常的诊断和排错能力。本课程将以任务驱动的模式,介绍几个经典的应用案例,来介绍Sysinternals Suite的强大功能。 深入研究Windows内部原理系列之六:Vista新特性底层揭秘 讲师信息:彭爱华 2007年02月01日 14:00-15:30 Level: 400 Windows Vista绝非仅仅是具有诸如3D切换、毛玻璃等炫目的界面效果,花钱购买了Windows Vista,而仅仅为了使用其界面效果,难免有点“买椟还珠”的感觉。实际上Windows Vista值得称道的是它具有很多全新的安全特性,例如用户帐户控制、IE保护模式、服务隔离和Windows资源保护等等。有了这些全新的安全特性,我们就可以在相当的程度上摆脱恶意软件的滋扰。Windows之父Jim Allchin曾经说过不要满足于只知道How-to、小技巧之类的知识,而是应该深入底层了解其内部原理。只有了解了这些安全特性的内在原理,才能真正了解Windows Vista是怎样精心替我们解决安全问题的,才能真正利用好这些安全特性。本课程将以UAC、IE保护模式为例,介绍这些安全特性的内在原理。 深入研究Windows内部原理系列之七:开机引导过程 讲师信息:张银奎 2007年02月02日 14:00-15:30 Level: 400 Windows的启动是一个复杂的过程,从加载器(NTLDR或WinLoad)开始工作到Windows子系统准备就绪,中间经历了若干个复杂的步骤,包括内核和执行体的初始化,创建系统进程和线程,对象管理器初始化基本对象,I/O管理器枚举设备并安装驱动程序,启动SMSS和WinLogon进程,运行Windows子系统进程。本讲座将解析以上各个步骤的来龙去脉,并探讨驱动的加载顺序、用户登录(Gina,SAM数据库,域身份验证)、系统服务程序、Shell等等启动过程密切相关的问题。 深入研究Windows内部原理系列之八:内存管理揭秘 讲师信息:徐晓卓 2007年02月05日 14:00-15:30 Level: 400 工欲善其事,必先利其器。如果能够深入了解Windows内存管理机制,那么无论在系统配置还是在故障排错方面,都能让我们直达根源,起到事半功倍的效果。本课程将全面介绍Windows内部内存管理机制,包括寻址原理、进程内存空间分布、核心态用户态内存管理原理以及虚拟内存管理原理等。同时将讨论应用程序中内存的使用问题,内存泄露的发生以及排除方法。 深入研究Windows内部原理系列之九:Windows的安全机制和实现 讲师信息:张瞰 2007年02月06日 14:00-15:30 Level: 400 Windows如何从操作系统层面保障所有程序的安全?访问控制列表,令牌、系统帐号、SAM数据库、GINA、交互式登陆、COM+,这些概念如何组成一个完整的Windows安全平台?这次课程将解答您这方面的疑问。 深入研究Windows内部原理系列之十:驱动和硬件的管理 讲师信息:张伟伟 2007年02月07日 14:00-15:30 Level: 400 驱动程序如何被Windows识别、加载和管理?随着Windows的发展,驱动程序的类型和作用经历了怎么样的变化?inf文件在驱动安装过程中起到了怎样的作用?Vista的驱动程序有哪些新变化?如果这方面的问题一直困扰着您,那这次课程是绝对不容错过的。 深入研究Windows内部原理系列之十一:存储和文件系统 讲师信息:高宇 2007年02月08日 14:00-15:30 Level: 400 课程将在宏观上简要介绍Windows的存储体系, 观察磁盘上的扇区怎样变成用户眼中的文件. 然后深入观察磁盘上的数据结构. 在分析枯燥的16进制数据的同时, 也会和大家讨论一些有趣和常见的错误现象。 深入研究Windows内部原理系列之十二:网络协议的构成和实现 讲师信息:高宇 2007年02月09日 14:00-15:30 Level: 400 课程内容包括Windows中的网络组件, 网络协议,重要网络服务的实现与特点。 Windows中的TCP/IP以及其上的服务将是本节的主要部分。 深入研究Windows内部原理系列之十三:如何诊断和试蓝屏错误 讲师信息:张银奎 2007年02月12日 14:00-15:30 Level: 400 当Windows操作系统检测到来源于系统硬件或内核代码的严重错误时,为了避免继续运行可能导致的更严重后果,Windows会通过蓝屏报告错误并让整个系统以可控的方式停止运行(BSOD)。Windows提供了多种方法来诊断和试蓝屏错误,包括故障转储文件(DUMP)、内核试以及通过驱动程序注册并接收错误信息。本讲座将解释蓝屏产生的原因和过程,引发蓝屏错误典型的根源,并向您介绍使用WinDbg分析DUMP文件的高级技巧。 深入研究Windows内部原理系列之十四:用户模式的程序排错(上) 讲师信息:喻勇 2007年03月09日 14:00-15:30 Level: 400 “该程序执行了非法操作,即将被关闭”,这是我们耳熟能详的出错报告。程序为什么会崩溃?如何发现崩溃的原因并进行解决?在全面了解了Windows的体系结构和程序运行方式后,我们将进一步介绍访问越界、缓冲溢出、内存泄露等故障的原理,并理论联系实际,带领大家使用试工具来解决一些常见的问题。 深入研究Windows内部原理系列之十五:用户模式的程序排错(下) 讲师信息:喻勇 2007年03月13日 14:00-15:30 Level: 400 “该程序执行了非法操作,即将被关闭”,这是我们耳熟能详的出错报告。程序为什么会崩溃?如何发现崩溃的原因并进行解决?在全面了解了Windows的体系结构和程序运行方式后,我们将进一步介绍访问越界、缓冲溢出、内存泄露等故障的原理,并理论联系实际,带领大家使用试工具来解决一些常见的问题。 深入研究Windows内部原理系列之十六:使您成为Windows专家的一些学习习惯 讲师信息:喻勇 2007年03月15日 14:00-15:30 Level: 200 在系统的学习了前面的Windows内部原理之后,大家一定对这么多的技术细节和深入分析大呼过瘾,也一定想尽快地掌握这些知识。如何学好Windows?如何成为一个技术过硬的IT专业人士?作为这个技术大餐的最后一讲,讲师将跟大家分享一些学习的心得,如何找对突破方向和知识重点,循序渐进的进行系统的技术学习。同时也会指出常见的一些学习弊病和改进方法。最后,老师将推荐一些重要的书籍和学习资料供听众参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小锋学长生活大爆炸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值