错误 The server socket has failed to listen on any local network address. The server socket has failed

原因:
中途中断DDP运行,未释放端口号,该进程仍在运行,导致端口号冲突
解决方式

方法1
  1. 通过ps -ef命令查看之前未释放的进程PID;-e显示所有进程,-f 显示进程的全部信息,包括PID PPID
  2. 通过kill -9 PID杀死进程,释放相关端口号,-9表示强制关闭
  3. 运行进程
方法2
  1. 通过nvidia-smi查看不同显卡上运行的进程与相关进程号
  2. 通过 kill -9 PID杀死占用显存的 进程
方法3

如果有多个进程需要同一端口号,则可以通过给不同进程指定不同端口号的方式。
在运行命令时手动增加--master_port=XXXX;如下所示

python -m torch.distributed.launch --nproc_per_node=8 --master_port=25641 main_task_retrieval.py

详细了解可看以下链接

  1. https://blog.csdn.net/flyingluohaipeng/article/details/126899077
  2. https://blog.csdn.net/brain_zZ/article/details/118632825
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值