工具1
pip install gpustat
gpustat --watch
可查看用户和gpu显存使用情况
输出结果如下:
[0] GeForce RTX 3090 | 29’C, 0 % | 23007 / 24268 MB | user(255M) root(3419M) sunlei(19331M)
[1] GeForce RTX 3090 | 24’C, 0 % | 17096 / 24268 MB | root(4007M) root(6337M) root(6337M) sunlei(413M)
[2] GeForce RTX 3090 | 21’C, 0 % | 14909 / 24268 MB | liuhongyu(253M) liuhongyu(253M) maxianqin(3831M) maxianqin(4133M) root(3703M) root(2321M) sunlei(413M)
[3] GeForce RTX 3090 | 26’C, 0 % | 7341 / 24268 MB | maxianqin(3831M) sunlei(413M) liqingxiao(3095M)
[4] GeForce RTX 3090 | 22’C, 0 % | 11459 / 24268 MB | maxianqin(6857M) maxianqin(4187M) sunlei(413M)
[5] GeForce RTX 3090 | 22’C, 0 % | 13843 / 24268 MB | maxianqin(6557M) maxianqin(6871M) sunlei(413M)
[6] GeForce RTX 3090 | 61’C, 88 % | 7710 / 24268 MB | zourui(7295M) sunlei(413M)
[7] GeForce RTX 3090 | 24’C, 0 % | 14690 / 24268 MB | root(3725M) root(6637M) root(3913M) sunlei(413M)
【工具2】https://github.com/anderskm/gputil
pip install gputil
import GPUtil
deviceIDs = GPUtil.getAvailable(
order = ‘memory’,
limit = 3,
maxLoad = 0.5,
maxMemory = 0.5,
includeNan=False,
excludeID=[],
excludeUUID=[]
)
【参数说明】
order - 选择顺序:
‘first’ - 设备ID升序 (defaut)
‘last’ - 设备ID降序
‘random’ - 随机排序
‘load’ - GPU负载率升序
‘memory’ - 显存占用率升序
limit - 返回的GPU个数,默认是1
maxLoad - 不返回负载率大于maxLoad的gpu,默认0.5
maxMemory - 不返回显存占用率大于maxMemory的gpu,默认0.5
includeNan - 是否包括GPU负载或显存使用率为NaN的GPU
excludeID - 需要排除的GPU索引列表
excludeUUID - 需要排除的GPU UUID列表
提示:如果出现terminfo database相关报错,把👇加到.bashrc即可
export TERMINFO=/usr/share/terminfo
“”"