[linux] 多机多卡训练时 socket error , prefix{name}

原因是 pip install ./transformers 和  cd ./peft & pip install -e . 的时候,

多机多卡,卡间等待时间太久,会socket error。

其实安其他包的时候,不需要等这么久,就不会出问题。

解决办法:

1、重新做一个环境,不需要在dlc上再pip install。

2、用单卡跑,单卡不涉及多机通信。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在PaddleX中进行YOLOv8多机多卡训练的步骤如下: 1. 首先,确保你已经安装了PaddlePaddle和PaddleX。可以使用以下命令来安装: ``` pip install paddle paddlepaddle paddlepaddle-gpu pip install paddlex ``` 2. 准备数据集:将数据集划分为训练集、验证集和测试集,并按照Pascal VOC或COCO格式组织数据集。 3. 创建并配置训练任务:在PaddleX中,可以使用`paddlex.det.TrainTask`类来创建训练任务。在创建任务,需要指定模型类型为YOLOv8,并设置其他相关参数,如学习率、批量大小、训练轮数等。 4. 设置多机多卡训练:在PaddleX中,可以通过设置`use_gpu`参数为True,启用GPU加速训练。如果你的机器上有多个GPU,可以通过设置`num_gpus`参数来指定使用的GPU数量。PaddleX会自动进行多机多卡训练。 5. 开始训练:调用`train`方法开始训练任务。训练过程中,PaddleX会自动进行数据增强、模型训练和评估,并将训练日志保存在指定的目录中。 请注意,进行多机多卡训练需要满足以下条件: - 你的机器上有多个GPU,并且已经正确安装和配置了CUDA。 - 你的数据集足够大和复杂,以保证多机多卡训练的性能提升。 参考资料: ***.3/tutorials/models/detection.html#id2) : PaddlePaddle官方文档 (https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/02_paddle2.0_develop/start_ml/debug_paddle/parallel_training***

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值