查看和指定GPU服务器显卡训练模型

本文介绍了如何使用nvidia-smi命令查看GPU信息,包括型号、温度、使用率等,并展示了如何用Python的torch.cuda库检测和选择GPU,以及通过设置环境变量CUDA_VISIBLE_DEVICES来指定使用特定GPU进行计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.查看显卡

nvidia-smi

1

GPU:GPU 编号;与实际编号不一定一致
Name:GPU 型号;
Persistence-M:持续模式的状态。持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态;
Fan:风扇转速,从0到100%之间变动;
Temp:温度,单位是摄氏度;
Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)。
Pwr:Usage/Cap:能耗;
Memory Usage:显存使用率;
Bus-Id:涉及GPU总线的东西
Disp.A:Display Active,表示GPU的显示是否初始化;
Volatile GPU-Util:浮动的GPU利用率;
Uncorr. ECC:Error Correcting Code,错误检查与纠正;
Compute M:compute mode,计算模式

2.间隔查看GPU使用情况

间隔10s刷新信息

watch -n 10 nvidia-smi

间隔5s刷新信息

watch -n 5 nvidia-smi

3.查看当前显卡信息

通过nvidia-smi查看的显卡排序不一定是正确的。可能使用到Torch的以下函数确定当前显卡。
torch.cuda.is_available() # 判断GPU是否可用
torch.cuda.device_count() # 查看可用GPU数量
torch.cuda.current_device() # 当前设备的索引,从0开始
torch.cuda.get_device_name(0) # 返回GPU名字

根据上面的信息,我这里有4个GPU。

>>> import torch
>>> torch.cuda.device_count()
4
>>> torch.cuda.current_device()
0
>>> torch.cuda.get_device_name(0)
'NVIDIA TITAN V'
>>> torch.cuda.get_device_name(1)
'NVIDIA TITAN V'
>>> torch.cuda.get_device_name(2)
'Tesla V100S-PCIE-32GB'
>>> torch.cuda.get_device_name(3)
'Tesla V100S-PCIE-32GB'

4. 使用os指定使用的显卡

上面查询到4个可用GPU信息,但是我们想指定在某张或者某几张显卡上训练网络。
(1)使用os.environ指定要使用的显卡:

import os
os.environ["CUDA_VISIBLE_DEVICES"] = '2,3'

把os.environ[‘CUDA_VISIBLE_DEVICES’]='2,3’放在所有访问GPU的代码之前,否则设置不生效。
假设原来有4张卡,编号为0的是主卡,现在编号为2的是主卡,且每张显卡的默认标号为[0,1]。
(2)将网络放到指定GPU上训练

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = Model()
 
if torch.cuda.device_count() > 1:
    model = nn.DataParallel(model, device_ids=[0,1])
model.to(device)

device_ids=[0,1]里面的0指的是4张显卡里面的第三张,1表示第四张。

要有效地在萤石云服务器上进行深度学习字符识别模型训练,选择合适的GPU显卡进行正确配置是至关重要的。首先,显卡的选择取决于模型的复杂性数据集的规模。对于VisionMaster 3.4.0,推荐使用至少具备4GB显存的显卡,如果数据集更大或者模型更加复杂,建议使用拥有6GB或更多显存的GPU。英伟达(NVIDIA)是目前深度学习领域中最受欢迎的GPU品牌,其提供的CUDA加速计算平台可以显著提升训练速度。 参考资源链接:[深度学习字符识别训练指南-VM3.4.0](https://wenku.csdn.net/doc/iic1n01i3d?spm=1055.2569.3001.10343) 在萤石云服务器上配置GPU,你需要确保服务器的操作系统支持所选GPU,并安装正确的驱动程序。通常,NVIDIA的显卡会使用CUDA作为其加速计算的平台,因此你需要安装CUDA Toolkit以及对应的cuDNN库。此外,萤石云平台通常会提供简单的配置界面文档,指导用户如何为特定的GPU型号进行设置。 一旦GPU驱动安装正确,你就可以启动VisionMaster 3.4.0并开始配置训练参数了。在进行模型训练时,VisionMaster会自动利用GPU来加速计算过程,你可以通过调整批次大小(batch size)学习率等参数来控制训练过程,以确保模型GPU的辅助下能够高效地完成训练。 最后,为了确保训练过程的稳定性效率,建议在萤石云服务器GPU配置界面中启用硬件加速功能,并根据实际情况调节显存核心使用率。同时,不要忘记检查防火墙设置网络配置,确保云服务器的安全性良好的网络连接,从而顺利完成深度学习模型训练。 参考资源链接:[深度学习字符识别训练指南-VM3.4.0](https://wenku.csdn.net/doc/iic1n01i3d?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值