nvidia-smi 无进程占用GPU，但GPU显存却被占用了很多

最新推荐文章于 2024-09-18 14:37:33 发布

CharlesWu123

最新推荐文章于 2024-09-18 14:37:33 发布

阅读量3w

点赞数 32

分类专栏：深度学习环境

本文链接：https://blog.csdn.net/m0_38007695/article/details/88954699

版权

深度学习环境专栏收录该内容

6 篇文章 0 订阅

订阅专栏

下图是我当时遇到的问题

如上图，GPU1 显示占用了10G多的显存，但是却没有相应的进程。此时可使用如下命令查看进程：

fuser -v /dev/nvidia*

显示如下图：

此时把这些进程全部 kill 掉

kill -9 5142 5143 5144 5145 5146 5147 5148 5195 5196 5197

然后就可以了，看到如下的显示：

如果需要 kill 的进程特别多，并且想要全部都 kill 掉，可以使用以下的 python 脚本帮助 kill ：

import os
pid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))
kill_cmd = 'kill -9 ' + ' '.join(pid)
print(kill_cmd)
os.popen(kill_cmd)

CenteOS安装fuser

yum install -y psmisc

结束，解决问题！

参考地址：https://blog.csdn.net/qq_33547191/article/details/86263859

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CharlesWu123

关注关注

32
点赞
踩
81

收藏

觉得还不错? 一键收藏
打赏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ubuntu下实时查看GPU使用情况的两种方式（nvidia-smi、gpustat）及结束占用GPU进程的命令

zeeq的博客

07-21

10万+

要查看gpu占用，这里介绍两个方法，一个是官方的nvidia-smi，装完显卡驱动就能使用了；另一个是gpustat，更方便于查看gpu使用情况。

zabbix-nvidia-smi-multi-gpu:使用nvidia-smi的zabbix模板。在Windows和Linux上与多个GPU配合使用

05-08

zabbix-nvidia-smi-multi-gpu 使用nvidia-smi的zabbix模板。与Windows和Linux上的多个GPU配合使用。特征：所有图形卡的低级发现项目原型：风扇转速总计，可用和已用内存功率以十瓦为单位（数十瓦，因此它可以很好...

11 条评论您还未登录，请先登录后发表或查看评论

ubuntu gpu显卡内存一直被占，nvidia-smi 看不到进程

renyuanfang的专栏

01-15

5048

使用 fuser 命令查看显卡进程信息，注意调整参数，可能你的显卡是nvidia1，或nvidia6 fuser -v /dev/nvidia0 如果 fuser 命令找不到，如图 fuser: command not found 安装fuser shell命令 apt-get install psmisc 查找到 ID 后 kill -9 $pid 最后 nvidia-smi 查看进程占用最后推荐使用这个命令来查看 gpu使用情况 watch -n 0....

Nvidia-smi没有进程但是显存不释放

热门推荐

FRIGIDWINTER的博客

03-02

1万+

本文探究nvidia-smi不显示正在使用GPU的进程的原因并予以解决

nvidia-smi 可以显示gpu占用量和使用率，但不显示PID等详细进程信息的解决方法

samoyan的博客,记录技术成长~

05-29

2748

使用fuser命令可以查看哪些进程正在使用指定的文件或目录。在Linux系统中，GPU设备通常被映射到/dev/nvidia*文件中，因此可以使用fuser命令来查看哪些进程正在使用GPU设备。在上述示例中，可以看到/dev/nvidia0设备正在被PID为1234的python进程使用，/dev/nvidia1设备正在被PID为5678的tensorflow进程使用。执行上述命令后，会列出所有正在使用GPU设备的进程号和相关信息。使用fuser -v /dev/nvidia*查看使用gpu的进程号。

nvidia-smi无进程但是显卡被占满

m0_52848925的博客

02-03

2379

这个命令查询到的进程ID（PID）是 nvidia-smi 自己维护的，而不是操作系统维护的真实进程ID，真实的PID可以通过其他方式（例如使用ps命令）获取。远程服务器，输入nvidia-smi，看到显存使用率（Memory Usage）几乎占满，但，显存利用率（GPU-Util）为0%。使用 pycharm 的 python console 进行调试的时候，调完之后要把进程终止掉，而不是把界面叉掉！显存使用率占满，说明有进程跑完之后，没有释放掉，一直静静地占着地儿。① jupyter不会释放显存。

解决Linux Nvidia并行任务强行终止后kill不死进程

brain_zZ的博客

07-10

1万+

kill杀死程序流程检查GPU进程nvidia-smi单卡任务kill指令kill -GPU索引号 -PID多卡任务kill指令fuser -v /dev/nvidia*kill -PID小结最近在学习Pytorch的DistributedDataParallel API进行多GPU并行计算的实现，并行虽好，但是一旦代码有bug手动强行终止运行，经常出现部分进程还没终止的现象，还在后台运行占用资源，必须手动杀死进程。然而kill进程却没那么顺利，有些进程怎么也杀不死，看了好些方法都没用，最后自己摸索了出来

nvidia-smi的简介、安装使用的安装包

11-14

- 运行的进程：正在GPU上执行的进程及其占用的显存和计算单元 **3. 常用nvidia-smi选项** - `-l` 或 `--list`: 持续监控GPU状态，每秒更新一次。 - `-i` 或 `--gpu-id`: 指定要查询的GPU ID。 - `-d` 或 `--...

nvidia-smi.1.zip

10-25

当运行“nvidia-smi”命令时，会显示每个GPU的ID、型号、当前频率、显存占用、功率状态以及驱动版本等。这对于诊断性能问题、监控GPU资源利用率以及确保设备健康状况是极其有用的。其次，NVIDIA-SMI还允许用户管理...

nvidia-smi-367.38.pdf

11-18

《NVIDIA GPU 显卡监控与管理工具nvidia-smi详解》在现代计算机系统中，尤其是涉及到高性能计算和图形处理的领域，NVIDIA GPU 的作用不可忽视。为了有效地管理和监控这些显卡，NVIDIA 提供了一个名为 nvidia-smi...

cuda-smi-master_GPU_源码

10-02

CUDA SMI (System Management Interface) 是NVIDIA提供的一种命令行工具，用于监控和管理CUDA设备，即GPU。在“cuda-smi-master_GPU_源码”这个压缩包中，你将获得CUDA SMI的源代码，这将使你有机会深入了解如何与...

【解决】GPU占用显存，但看不到PID进程

XC___XC的博客

12-05

3320

awk 命令来处理 fuser 的输出，遍历每一行输出，以 "kill -9 " 开头，后面跟着每个进程的PID。常用的查看显卡基本信息的命令 nvidia-smi 发现显存被占用，但是看不到pid进程。kill进程先大概了解一下是那个情况，别到时候把其他人的进程给断了【苦笑】fuser 命令来查找哪些进程正在使用 /dev/nvidia* 文件。可以使用下面的命令，查看详细的pid进程号和占用的显存。

nividia-smi命令不显示占用显卡的进程

weixin_40725055的博客

08-14

1213

fuser -v /dev/nvidia* 使用此命令可以查看使用显卡的进程详情

docker内部执行nvidia-smi无任何显示的解决方法

davidhopper的博客

04-11

6657

仔细观察启动Docker的提示，说是Docker内部的Nvidia显卡驱动异常，未能启用Nvidia显卡，于是按照Nvidia官方网站。相关的代码居然没有编译，于是在Docker内部执行Nvidia显卡驱动检测命令。最开始我以为是Docker启动有问题，于是连续重启两次，仍然是。本以为万事大吉，结果非常不幸，执行第一步。今天在Docker内部编译程序，发现与。进入Docker，执行命令。

nvidia-smi查看无进程，但GPU占用率100%问题解决

weixin_45897706的博客

03-30

2100

原因：记住记住记住Ctrl+Z是把当前运行程序挂起，并不是终止运行，终止用Ctrl+C,前段时间跑代码测性能和看部分结果一直用的Ctrl+Z，导致程序都处于挂起状态，占用大量内存。jobs -l 显示Linux中的任务列表及任务状态，包括后台运行的任务。ps -ef | grep ‘python’ 命令将显示所有包含 ‘python’ 关键词的进程信息。在系统进程中查找user并且同时包含 “python” 的进程的命令。| 符号是管道操作符，将命令的输出作为另一个命令的输入。

windows下杀死GPU进程

python_plus的博客

12-25

2226

1.windows+R 到cmd窗口，输入nvidia-smi,出如下窗口 2.输入指令： taskkill /PID PTD号 /F 例如我上面： taskkill /PID 16676 /F

nvidia-smi指令查看显存被占用，无进程ID的解决方法

weixin_42924890的博客

07-25

1085

nvidia-smi查看显存被占用无进程ID的处理方法

zabbix-nvidia-smi-multi-gpu

07-15

### 回答1： zabbix-nvidia-smi-multi-gpu是一个用于监控多个NVIDIA GPU的Zabbix插件。它通过NVIDIA System Management Interface（nvidia-smi）来获取GPU的相关信息，并将这些信息发送到Zabbix服务器进行监控和分析。这个插件在多GPU环境中非常有用，特别是在服务器集群或大规模GPU集群中。它可以帮助管理员实时监控每个GPU的使用情况、温度、功耗以及其他性能指标，以便更好地管理和优化GPU集群的资源。使用zabbix-nvidia-smi-multi-gpu插件，管理员可以轻松配置Zabbix服务器来监控和收集GPU的数据。插件会定期执行nvidia-smi命令以获取GPU的信息，并将这些数据发送到Zabbix服务器上的特定主机。在Zabbix服务器上，管理员可以设置触发器和报警规则，当GPU的使用率或温度超过设定的阈值时，会触发报警通知。这样管理员就可以及时采取措施来解决GPU过热或过载的问题，确保系统的稳定性和可靠性。总而言之，zabbix-nvidia-smi-multi-gpu是一个强大的插件，为管理员提供了实时监控和管理多个GPU的功能。通过使用该插件，管理员可以更好地优化GPU集群的性能，确保系统的正常运行。 ### 回答2： zabbix-nvidia-smi-multi-gpu是一个用于监控多个GPU设备的Zabbix插件。在服务器上安装了多个显卡设备，该插件可以帮助我们实时监控各个GPU的性能和使用情况。该插件基于NVIDIA的SMI（System Management Interface）工具开发，通过查询SMI的API来获取GPU的信息。它可以监测GPU的温度、利用率、电源使用情况、显存使用情况等指标，并将这些信息传递给Zabbix监控系统。使用zabbix-nvidia-smi-multi-gpu插件，我们可以在Zabbix的监控面板上实时查看多个GPU的状态。我们可以了解每个GPU的温度是否正常，以及其负载情况。如果某个GPU的温度过高或负载过载，我们可以及时采取措施，如调整风扇速度或优化算法，以保证GPU的稳定性和性能。此外，zabbix-nvidia-smi-multi-gpu还具有告警功能，当GPU的某些参数超过预设的阈值时，它会发出警报通知管理员。这样，我们可以在GPU出现故障或异常情况时快速采取措施，避免系统崩溃或性能下降。总之，zabbix-nvidia-smi-multi-gpu是一个方便实用的插件，可用于监控多个GPU设备的性能和状态。它可以帮助我们追踪GPU的使用情况，提供有价值的数据，以优化系统性能和提高工作效率。