Linux用户对GPU的日常管理(英伟达)

2020/05/19

        我们在服务器上跑代码最常用的就是NVIDIA显卡,如GTX2080,下面记录一下我找到的常用代码。

        在NVIDIA显卡可以正常使用以后,输入

nvidia-smi

就可以看到一个包含每张显卡型号、显存使用情况、利用率、占用线程等信息,非常全面。

        这个命令配合 watch 可以实现实时监控,是我最常用的命令:

watch -n 1 nvidia-smi

其中 -n 1 设定每1秒执行一次 nvidia-smi 命令。设定为1秒是因为有些版本的 nvidia-smi 命令执行较慢,同时比较吃cpu。不过 watch 命令会由于窗口大小限制而不能显示全部内容,如下图中看不到占用每张卡的具体进程。

watch -n 1 nvidia-smi

 

 

        按 Ctrl + C 组合键退出 watch 监视。


        在跑多进程程序的时候,有时候主进程程序挂掉了,但子进程程序还在默默地占用显存。一般表现为单张卡被占用显存,但其利用率保持为0%,且 nvidia-smi 看不到占用该卡的进程。例如上图中1卡的占用显存如果改为 5754MiB,其它不变,那么1卡就可能被僵尸进程占用显存了。

        这里有一个神奇的命令,它可以查看当前用户占用每张卡的所有进程。

fuser -v /dev/nvidia*

 

fuser -v /dev/nvidia*

        

        那么上面列出来的进程就是 yiyuiii 现在与第0张卡有交互的进程。将进程号喂给 kill 指令,就可以关闭它们。

kill -9 [PID]

        kill 命令可以批量关闭进程,只需把 进程号PID 列在右边。在上面的情况中,命令为

kill -9 17521 17540 17541 17542 17543 17544 17545 17546 17547 17551 17555 17556 17557 17558 17559 17560 17561 18304 18332 18333 18334 18335 18336 18337 18338 18339 18340 18344 18345 18346 18347 18348 18349

        另外,作为一位自动化选手,这里提供一个 python 程序来提取 kill 所需的进程号列表。

import os
import re

with open('rawtext.txt','r') as f:
    s = f.read()
    pattern = re.compile(r'\d+')   # 查找数字
    results = pattern.findall(s)
    output = ''
    if results:
        for result in results:
            output += result + ' '
    print(output)

2020/06/03

        对于使用了nohup命令文件输入/输出的情形,下面代码能够直接精准得到进程PID:

fuser <filename>

        To be continued... ->

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值