2s-AGCN【复现】EOFError: Ran out of input 问题解决记录（win10+pycharm）

最新推荐文章于 2024-02-22 11:15:47 发布

你个辣子

最新推荐文章于 2024-02-22 11:15:47 发布

阅读量3.8k

点赞数 2

分类专栏： github程序复现数据处理 Pytorch学习笔记文章标签： python 计算机视觉人工智能 pytorch 神经网络

本文链接：https://blog.csdn.net/labview520/article/details/124129355

版权

数据处理同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

Pytorch学习笔记

3 篇文章 0 订阅

订阅专栏

github程序复现

2 篇文章 1 订阅

订阅专栏

在win10上用pycharm复现2s-AGCN论文程序，在环境和文件路径都调通之后
在终端里输入 python main.py --config ./config/nturgbd-cross-view/train_joint.yaml
出现了下面的这样一个报错

[ Tue Apr 12 18:18:56 2022 ] Parameters:
{'work_dir': './work_dir/ntu/xview/agcn_joint', 'model_saved_name': './runs/ntu_cv_agcn_joint', 'config': './config/nturgbd-cross-view/train_joint.yaml', 'phase': 'train', 'sa
ve_score': False, 'seed': 1, 'log_interval': 100, 'save_interval': 2, 'eval_interval': 5, 'print_log': True, 'show_topk': [1, 5], 'feeder': 'feeders.feeder.Feeder', 'num_worke
r': 32, 'train_feeder_args': {'data_path': './data/ntu/xview/train_data_joint.npy', 'label_path': './data/ntu/xview/train_label.pkl', 'debug': False, 'random_choose': False, '
random_shift': False, 'random_move': False, 'window_size': -1, 'normalization': False}, 'test_feeder_args': {'data_path': './data/ntu/xview/val_data_joint.npy', 'label_path':
'./data/ntu/xview/val_label.pkl'}, 'model': 'model.agcn.Model', 'model_args': {'num_class': 60, 'num_point': 25, 'num_person': 2, 'graph': 'graph.ntu_rgb_d.Graph', 'graph_args
': {'labeling_mode': 'spatial'}}, 'weights': None, 'ignore_weights': [], 'base_lr': 0.1, 'step': [30, 40], 'device': [0], 'optimizer': 'SGD', 'nesterov': True, 'batch_size': 1
6, 'test_batch_size': 16, 'start_epoch': 0, 'num_epoch': 50, 'weight_decay': 0.0001, 'only_train_part': False, 'only_train_epoch': 0, 'warm_up_epoch': 0}

[ Tue Apr 12 18:18:56 2022 ] Training epoch: 1
  0%|                                                                                                                                                | 0/1204 [00:09<?, ?it/s]
Traceback (most recent call last):
  File "main.py", line 578, in <module>
    processor.start()
  File "main.py", line 519, in start
    self.train(epoch, save_model=save_model)
  File "main.py", line 379, in train
    for batch_idx, (data, label, index) in enumerate(process):
  File "D:\anaconda3\envs\wq\lib\site-packages\tqdm\std.py", line 1195, in __iter__
    for obj in iterable:
  File "D:\anaconda3\envs\wq\lib\site-packages\torch\utils\data\dataloader.py", line 291, in __iter__
    return _MultiProcessingDataLoaderIter(self)
  File "D:\anaconda3\envs\wq\lib\site-packages\torch\utils\data\dataloader.py", line 737, in __init__
    w.start()
  File "D:\anaconda3\envs\wq\lib\multiprocessing\process.py", line 105, in start
    self._popen = self._Popen(self)
  File "D:\anaconda3\envs\wq\lib\multiprocessing\context.py", line 223, in _Popen
    return _default_context.get_context().Process._Popen(process_obj)
  File "D:\anaconda3\envs\wq\lib\multiprocessing\context.py", line 322, in _Popen
    return Popen(process_obj)
  File "D:\anaconda3\envs\wq\lib\multiprocessing\popen_spawn_win32.py", line 65, in __init__
    reduction.dump(process_obj, to_child)
  File "D:\anaconda3\envs\wq\lib\multiprocessing\reduction.py", line 60, in dump
    ForkingPickler(file, protocol).dump(obj)
OSError: [Errno 22] Invalid argument
Traceback (most recent call last):
  File "<string>", line 1, in <module>
  File "D:\anaconda3\envs\wq\lib\multiprocessing\spawn.py", line 105, in spawn_main
    exitcode = _main(fd)
  File "D:\anaconda3\envs\wq\lib\multiprocessing\spawn.py", line 115, in _main
    self = reduction.pickle.load(from_parent)
EOFError: Ran out of input

我的第一反应是线程的问题，但是发现在训练文件work_dir/ntu/xview/agcn_bone/config.yaml下，怎么改num_worker都不行，只要程序一运行，又变成了默认的32，如下图所示
在这里插入图片描述
后来发现，这个config.yaml文件是代码生成文件，要是修改的话，需要到main.py函数文件下的def get_parser():里面去修改
把default=32改成defalt=0或1程序就能跑通啦

num_worker=0表示只有主进程去加载batch数据，这个可能会是一个瓶颈。
num_worker=1表示只有一个worker进程用来加载batch数据，而主进程是不参与数据加载的。这样速度也会很慢。
num_workers>0 表示只有指定数量的worker进程去加载数据，主进程不参与。增加num_worker也同时会增加CPU内存的消耗。所以num_worker的值依赖于 batch size和机器性能。
一般开始是将num_worker设置为等于计算机上的CPU数量
最好的办法是缓慢增加num_worker，直到训练速度不再提高，就停止增加num_worker的值。
上面关于num_worker的说明转自下面大佬的文章，这里大家点过去看可能不方便，我就重新改在这里啦
https://www.jianshu.com/p/16860e392844

你个辣子

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
6
评论
2s-AGCN【复现】EOFError: Ran out of input 问题解决记录（win10+pycharm）

在win10上用pycharm复现2s-AGCN论文程序，在环境和文件路径都调通之后在终端里输入 python main.py --config ./config/nturgbd-cross-view/train_joint.yaml出现了下面的这样一个报错[ Tue Apr 12 18:18:56 2022 ] Parameters:{'work_dir': './work_dir/ntu/xview/agcn_joint', 'model_saved_name': './runs/ntu_cv_
复制链接

扫一扫