【DEBUG】报错RuntimeError: Trying to resize storage that is not resizable和DataLoader worker (pid xxx) 解决

zy_destiny

已于 2023-11-07 09:51:02 修改

阅读量6.3k

点赞数 7

分类专栏： Debug mmSegmentation 文章标签： 1024程序员节 debug dataloader num_worker

于 2023-10-24 17:52:52 首次发布

本文链接：https://blog.csdn.net/qq_38308388/article/details/134017869

版权

mmSegmentation 同时被 2 个专栏收录

24 篇文章

订阅专栏

Debug

17 篇文章

订阅专栏

文章讲述了在使用mmseg进行训练时遇到的两个常见问题：数据加载过程中的RuntimeError和DataLoaderworker被杀的报错。作者分享了定位问题、查看详细报错以及调整num_workers设置来解决问题的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🚀debug专栏

mmseg训练，遇到了个数据加载过程中的bug，特此记录下debug过程和思路。其他debug请参考上文中【debug专栏】

❓❓问题1：

        先是在dataloder那报了这样一个错
RuntimeError: Caught RuntimeError in DataLoader worker process 0.

        这是经常在数据加载过程中遇到的问题，主要还是看后面的详细报错说明。

        然后后面报错
RuntimeError: Trying to resize storage that is not resizable

🌻🌻解决方案：

报错这种思路，首先应该定位到详细的报错位置“RuntimeError: Trying to resize storage that is not resizable”这一句，完整报错如下：

Traceback (most recent call last):
  File "train.py", line 100, in <module>
    for data in train_dataloader:
  File "/data0/thw/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 628, in __next__
    data = self._next_data()
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 1333, in _next_data
    return self._process_data(data)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 1359, in _process_data
    data.reraise()
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/_utils.py", line 543, in reraise
    raise exception
RuntimeError: Caught RuntimeError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/worker.py", line 302, in _worker_loop
    data = fetcher.fetch(index)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/fetch.py", line 61, in fetch
    return self.collate_fn(data)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 265, in default_collate
    return collate(batch, collate_fn_map=default_collate_fn_map)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 143, in collate
    return [collate(samples, collate_fn_map=collate_fn_map) for samples in transposed]  # Backwards compatibility.
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 143, in <listcomp>
    return [collate(samples, collate_fn_map=collate_fn_map) for samples in transposed]  # Backwards compatibility.
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 120, in collate
    return collate_fn_map[elem_type](batch, collate_fn_map=collate_fn_map)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 172, in collate_numpy_array_fn
    return collate([torch.as_tensor(b) for b in batch], collate_fn_map=collate_fn_map)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 120, in collate
    return collate_fn_map[elem_type](batch, collate_fn_map=collate_fn_map)
  File "/XXX/anaconda3/envs/Mmseg/lib/python3.8/site-packages/torch/utils/data/_utils/collate.py", line 162, in collate_tensor_fn
    out = elem.new(storage).resize_(len(batch), *list(elem.size()))
RuntimeError: Trying to resize storage that is not resizable

解决方法：网上很多网友说是设置的num_works不对导致的，需要设置为0 或和显卡相同的数。但是我修改了此处仍然报错。

后来检查输入数据image和label的尺寸，报错原因果然是因为尺寸不一致，检查后修改成一致尺寸，解决了！！！