RuntimeError: RPC ran for more than 60000 milliseconds and time out 报错处理

最新推荐文章于 2024-09-05 07:54:28 发布

大熙熙

最新推荐文章于 2024-09-05 07:54:28 发布

阅读量1k

点赞数 1

文章标签： python pytorch 深度学习机器学习 PyTorch入门

本文链接：https://blog.csdn.net/Jimmyyao18/article/details/107164352

版权

在使用PyTorch 1.5.1更新后的RPC库进行并行实验时，遇到"RPC ran for more than 60000 milliseconds and time out"的错误。该错误通常表示进程等待时间过长。问题在于worker从server获取模型的工作无法成功，而反向操作则正常。在同一服务器不同端口运行相同代码，结果不一。进一步排查发现可能是新版本多进程和线程管理的内存访问问题。解决方案是将num_workers设为0，更优策略是优化并行架构的进程和线程管理。

摘要由CSDN通过智能技术生成

pytorch 1.5.1 RuntimeError: RPC ran for more than 60000 milliseconds and time out 报错处理

近期pytorch更新了1.5.1版本，其中对于并行框架有了许多新的功能，恰巧最近工作也需要使用其中的RPC库，因此着手进行了一些实验但是，在实验的过程中遇到了一个问题，每当我按照tutorial中的代码进行运行的时候，就会有这个报错

RuntimeError: RPC ran for more than 60000 milliseconds and time out

很显然，这个报错在很多并行框架下一般都是waiting时间过长，导致有进程长时间没有内容运行。而且最诡异的时候，在进行RPC传输的时候有两个工作，第一个是worker从server那里获得模型，第二个是server从worker收集模型，然后第二个工作是没有问题的，结果第一个工作不能成功执行。非常的迷惑

model = _remote_method(Server.send_model, agent_rref)

只要没有这句话就不会有问题，而且最迷惑的地方在于同一台服务器，用不同端口运行相同代码，有的端口可以成功运行，有的端口就不可以。
后来又遇到了另外一个错误，和这个报错的解决办法相同，因此我也写在这里，出现

RuntimeError: unable to op

最低0.47元/天解锁文章