pytorch多服务器训练GPU内存不足问题

在多卡的GPU服务器,当我们在上面跑程序的时候,当迭代次数或者epoch足够大的时候,我们通常会使用nn.DataParallel函数来用多个GPU来加速训练。

在服务器上面用双卡训练不了的原因通常是代码当时并不支持双卡,只能占用单卡的显存,所以才会显示out of memory。需要在代码上加上一行。(train和test都要加,不然会报错)

在这里插入图片描述
GPU占用双卡的命令

CUDA_VISIBLE_DEVICES=0,1 nohup python train.py &

py文件里有以下代码也会导致只占用一个卡,删掉即可

os.environ["CUDA_VISIBLE_DEVICES"] = "0"
对于PyTorch服务器配置,以下是一些建议: 1. 操作系统:选择一个适合你的任务的操作系统,如Ubuntu、CentOS等。通常,Ubuntu是一个流行的选择,因为它有广泛的软件支持和社区支持。 2. 硬件要求:PyTorch可以在CPU和GPU上运行,但在进行深度学习训练时,使用GPU可以显著提高性能。因此,建议选择一台配备强大GPU服务器。NVIDIA的GPU是常见的选择,像Tesla V100、RTX 2080 Ti等,但具体取决于你的预算和任务需求。 3. CUDA和cuDNN:PyTorch依赖于CUDA和cuDNN来加速GPU计算。确保在服务器上安装了与你所选GPU兼容的适当版本的CUDA和cuDNN。可以在NVIDIA官网上找到相应的版本和安装指南。 4. Python环境:安装适当的Python版本,并使用包管理工具(如pip或conda)安装PyTorch和其他必要的依赖项。可以参考PyTorch官方文档获取安装指南。 5. 存储:确保服务器上有足够的存储空间来存储数据集、模型和其他必要的文件。使用SSD硬盘可以提高数据读取速度。 6. 内存:为了处理大型数据集和复杂模型,服务器需要足够的内存。内存的大小取决于你的任务需求。 7. 网络连接:如果需要从互联网上下载数据集或与其他服务器进行通信,确保服务器有稳定的网络连接。 8. 安全性:考虑服务器的安全性,如使用防火墙、设置密码、限制远程访问等。 这些只是一些常见的建议,具体的配置需求可能因任务的复杂性和预算而有所不同。根据你的需求和资源情况,可以进一步优化服务器配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值