python显卡利用率_GPU Memory Problems in PyTorch(显卡爆炸与利用率不足)

如今研究人工智能,跑深度学习算法,显卡/GPU绝对是第一大门槛,所以不管您是1080Ti还是V100,如果不能发挥出GPU的最大能力,那它可能就是不是显卡而是块普通的砖头了吧。

显卡爆炸

显卡爆炸和内存的使用紧密相连,特别是在代码中对某些变量的不当使用,很有可能内存泄露,从而慢慢得导致显卡OOM(out of memory)。一般来说,计算模型时显存主要是模型参数 + 计算产生的中间变量,细分可以占用分四个部分:

模型参数

模型计算中间结果

反向传播中间结果

优化器额外参数

但是如果模型出现显卡内存不足的错误(torch.FatalError: cuda runtime error (2) : out of memory),很难第一时间确定出问题的所在,不过Pycharm的图形化内存分析工具memory profiler可以看到每一部分的时间和函数引用关系,通过这个工具可以确定出问题的某些行代码。说到工具,也有可以通过htop监控下显卡的:

sudo apt-get install htop

htop -d=0.1 #d为更新频率,0.1s更新一次

watch -n 0.1 nvidia-smi #监控内存,0.1s刷新一次

显存比较常见的一些问题有:

全局变量累加导致内存泄漏,如loss变量的处理。这里要注意的是,一定要先和GPU detach了,仅仅使用loss的数值,不然添加的实际上是整个计算图。当然除了loss,其他的变量问题基本上都是出现内存泄露的原因呀。

epoch_loss += loss.d

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值