openpai部署踩坑记录

参考:

  1. 微软OpenPAI平台搭建指南
  2. OpenPAI安装指南(基于v0.11.0)
  3. 使用微软OpenPAI来作为深度学习训练平台

部署方式及节点:

部署方式

Distributed deploy

节点

pai-admin:部署openpai
  • 192.168.101.199
worker
  • 192.168.100.101
  • 192.168.100.102
  • 192.168.100.103

踩坑记录(注:除特意说明,以下所有操作均在pai-admin上执行):

  1. 问题:在pai官方文档中需要查看或修改生成的layout.yaml文件,但我没有找到。
    解决方法:目前从其他人的分享及自己的分析来看,最新的pai生成了4个配置文件,如下:
    在这里插入图片描述
    cluster-configuration.yaml与官方提到的layout.yaml结构一样,暂且认为是官方重命名了输出配置文件。

  2. 问题:在WSL 上单机Single deploy:执行python paictl.py config generate -i /pai/deployment/quick-start/quick-start.yaml -o ~/pai-config -f时提示连接不到ssh的22端口。
    解决方法:暂无。

  3. 问题:安装kubernetes 时,执行python paictl.py cluster k8s-bootup -p ~/pai-config出错。
    原因~/pai-config/kubernetes-configuration.yamldocker-reistry为国外服务器,因为科学上网的缘故无法正常安装。
    解决方法:修改~/pai-config/kubernetes-configuration.yamldocker-reistry值为docker.io/openpai

  4. 问题:在第2步之后,需要重新安装kubernetes,此时提示

    docker: Error response from daemon: Conflict. The container name “/kubelet” is already in use by container “”. You have to remove (or rename) that container to be able to reuse that name.
    在这里插入图片描述
    解决方法:执行python paictl.py cluster k8s-clean -p ~/pai-config删除刚刚安装的文件。然后再执行python paictl.py cluster k8s-bootup -p ~/pai-config进行安装。

  5. 问题在这里插入图片描述
    192.168.100.101是我的第一个节点。
    解决方法

    1. 首先查看101节点的kubernetes配置文件:
      在这里插入图片描述
      发现有两个地方涉及到了端口8080,修改为6443(此处参照安装Kubernetes报错:The connection to the server localhost:8080 was refused):
      在这里插入图片描述
      重新执行clean、安装,错误依旧如下:
      在这里插入图片描述
      猜测配置在pai-admin上生效然后分发,在pai-admin找到文件如下:
      在这里插入图片描述
      全部备份然后修改端口为6443,clean、安装,错误依旧。

执行python paictl.py cluster k8s-bootup -p ~/pai-config碰到一个新问题:
在这里插入图片描述
参考:Unable to locate package nvidia-container-runtime when running python paictl.py cluster k8s-bootup

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值