PyTorch错误定位系列之DDP训练中 double free or corruption (out)

最新推荐文章于 2023-10-24 07:59:35 发布

Peter_ch_26

最新推荐文章于 2023-10-24 07:59:35 发布

阅读量1.3k

点赞数 2

分类专栏： PyTorch 深度学习框架文章标签： pytorch tensorflow python

本文链接：https://blog.csdn.net/c654528593/article/details/126631730

版权

PyTorch 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习框架

6 篇文章 0 订阅

订阅专栏

背景

最近觉得单卡训练有点慢了，在纠结pytorch-lightning和原始distributed训练中选择哪里。
最后，从学习的角度选了原生的单机多卡训练（DDP）方式。

结果，就把自己埋坑里了。

问题

代码写完后，通过torch.distributed.launch启动，程序跑了大概100 steps就突然挂了，出现了如下错误

epoch 0:[114/122531],loss:0.69853double free or corruption (out)
double free or corruption (out)
Killing subprocess 936
Killing subprocess 937
....
in sigkill_handler
    raise subprocess.CalledProcessError(returncode=last_return_code, cmd=cmd)

解决方法

网上说可能使malloc内存分配库的问题，咱也不太会cpp，就只能信。
按照网上的逻辑

sudo apt install libtcmalloc-minimal4
在自己代码启动的shell脚本加上这句 export LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc_minimal.so.4"
然后运行代码，居然就正常跑起来了，目前还没发现什么问题。

这里有个注意，libcmalloc有时候不一定在这个目录里，自己找找基本都在/usr/lib下