pytorch 1.5.1 RuntimeError: RPC ran for more than 60000 milliseconds and time out 报错处理
近期pytorch更新了1.5.1版本,其中对于并行框架有了许多新的功能,恰巧最近工作也需要使用其中的RPC库,因此着手进行了一些实验但是,在实验的过程中遇到了一个问题,每当我按照tutorial中的代码进行运行的时候,就会有这个报错
RuntimeError: RPC ran for more than 60000 milliseconds and time out
很显然,这个报错在很多并行框架下一般都是waiting时间过长,导致有进程长时间没有内容运行。而且最诡异的时候,在进行RPC传输的时候有两个工作,第一个是worker从server那里获得模型,第二个是server从worker收集模型,然后第二个工作是没有问题的,结果第一个工作不能成功执行。非常的迷惑
model = _remote_method(Server.send_model, agent_rref)
只要没有这句话就不会有问题,而且最迷惑的地方在于同一台服务器,用不同端口运行相同代码,有的端口可以成功运行,有的端口就不可以。
后来又遇到了另外一个错误,和这个报错的解决办法相同,因此我也写在这里,出现
RuntimeError: unable to op