RuntimeError: RPC ran for more than 60000 milliseconds and time out 报错处理

在使用PyTorch 1.5.1更新后的RPC库进行并行实验时,遇到"RPC ran for more than 60000 milliseconds and time out"的错误。该错误通常表示进程等待时间过长。问题在于worker从server获取模型的工作无法成功,而反向操作则正常。在同一服务器不同端口运行相同代码,结果不一。进一步排查发现可能是新版本多进程和线程管理的内存访问问题。解决方案是将num_workers设为0,更优策略是优化并行架构的进程和线程管理。
摘要由CSDN通过智能技术生成

pytorch 1.5.1 RuntimeError: RPC ran for more than 60000 milliseconds and time out 报错处理

近期pytorch更新了1.5.1版本,其中对于并行框架有了许多新的功能,恰巧最近工作也需要使用其中的RPC库,因此着手进行了一些实验但是,在实验的过程中遇到了一个问题,每当我按照tutorial中的代码进行运行的时候,就会有这个报错

RuntimeError: RPC ran for more than 60000 milliseconds and time out

很显然,这个报错在很多并行框架下一般都是waiting时间过长,导致有进程长时间没有内容运行。而且最诡异的时候,在进行RPC传输的时候有两个工作,第一个是worker从server那里获得模型,第二个是server从worker收集模型,然后第二个工作是没有问题的,结果第一个工作不能成功执行。非常的迷惑

model = _remote_method(Server.send_model, agent_rref)

只要没有这句话就不会有问题,而且最迷惑的地方在于同一台服务器,用不同端口运行相同代码,有的端口可以成功运行,有的端口就不可以。
后来又遇到了另外一个错误,和这个报错的解决办法相同,因此我也写在这里,出现

RuntimeError: unable to op
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值