PyTorch错误定位系列之DDP训练中 double free or corruption (out)

背景

最近觉得单卡训练有点慢了,在纠结pytorch-lightning和原始distributed训练中选择哪里。
最后,从学习的角度选了原生的单机多卡训练(DDP)方式。

结果,就把自己埋坑里了。

问题

代码写完后,通过torch.distributed.launch启动,程序跑了大概100 steps就突然挂了,出现了如下错误

epoch 0:[114/122531],loss:0.69853double free or corruption (out)
double free or corruption (out)
Killing subprocess 936
Killing subprocess 937
....
in sigkill_handler
    raise subprocess.CalledProcessError(returncode=last_return_code, cmd=cmd)

解决方法

网上说可能使malloc内存分配库的问题,咱也不太会cpp,就只能信。
按照网上的逻辑

  1. sudo apt install libtcmalloc-minimal4
  2. 在自己代码启动的shell脚本加上这句 export LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc_minimal.so.4"
  3. 然后运行代码,居然就正常跑起来了,目前还没发现什么问题。

这里有个注意,libcmalloc有时候不一定在这个目录里,自己找找基本都在/usr/lib

反思

下次还是直接用现成的分布式框架吧= = 。

参考

  1. https://blog.popkx.com/Error-in-python-double-free-or-corruption-prev-when-using-yolov5-training/
  2. https://github.com/tensorflow/tensorflow/issues/6968
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值