[20221004]莫名其妙的dataloader 无法在读写模式下打开共享内存对象错误

最新推荐文章于 2023-07-20 18:23:47 发布

一只企图努力地憨憨

最新推荐文章于 2023-07-20 18:23:47 发布

阅读量644

点赞数

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/qq_40762186/article/details/127162811

版权

问题1：
在训练过程中报错：

RuntimeError: falseINTERNAL ASSERT FAILED at "../aten/src/ATen/MapAllocator.cpp":263, please report a bug to PyTorch. unable to open shared memory object </torch_35874_0> in read-write mode

大致意思为无法在读写模式下打开共享内存对象，该错误并非出现在某个固定时间节点或epoch，而是随机出现在某个seed训练过程中的某个epoch，所以并不好定位错误。
解决方案
我目前认为是dataloader num_workers参数设置的过大的问题，如果后续还遇到相同报错再尝试去其他解决方案。

问题2：

optimizer = torch.optim.Adam(model.parameters(), lr=config.lr, weight_decay=config.wd)
scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, gamma=config.gamma,milestones=[int(v) for v in config.lr_sched.split(',')])

scheduler.step() # update lr