在 kubernetes 上部署 kubeFATE 联邦学习集群

参考文档中最终效果是跑了最简单的 demo toy_example,这个本质上还 是一个机器,因为 host 和 guest 使用的是同一个 ip 地址,也就是本 机的 ip 地址,跑通这个证明集群部署成功,如果使用的是多台机器, 只需要根据 guest 和 host 的名称在 fate-xxx 中 partylist 处的 partyip 修改成另一个机器的 ip 即可。
大体部分按照文档来做,下面是几个常见问题:
1、如果 minikube 和 kubefate 安装较慢,可以在鲸盘分享中下载 https://3.cn/100E-fJ50。
2、使用 minikube 安装 kubernete 如果提示无法获得镜像,可以使 用 sudo minikube start --vm-driver=none --image-repository=registry.cn-hangzhou.aliyuncs.com/google _containers 命令。
3、如果因为种种原因,上一步运行的时候报错,那再次执行上一步 操作之前,需要先进行 sudo rm -rf /tmp/juju-mk* sudo rm -rf /tmp/minikube.* 删除操作,否则会报出如下错误:Failed to save config: failed to acquire lock for /root/.minikube/profiles/minikube/config.json: unable to open /tmp/juju-mk270d1b5db5965f2dc9e9e25770a63417031943: permission denied,还可能遇到一些有关 kuberneters 的错可以看一下 [参考文档]。(https://www.cnblogs.com/fly_dream/p/13951719.html)
4、在执行 kubectl get all,ingress -n kube-fate 命令后注意查 看 status 是否变成 running,如果没有长时间没变的话,可以重启 一下电脑,或者重新来一遍上述操作,或者仅仅等待一会应该就会自 己好,否则后续会报错。
5、文档中给的是在同一个机器上有一个 guest 一个 host,端口 10000 作为 guest 方,如果我们要使用两个机器,有不同的 ip,注意修改 fate-xxxx.yaml 文件里面的对应内容
6、启动 job 的时候记得查看 job 是否成功,如果未成功的话重新执 行一遍 kubefate cluster install -f ./fate-xxxx.yaml 指令
7、运行的时候只用在端口 10000 机器按照文档中所说的方式启动并 执行对应脚本即可
8、如果执行 sudo kubectl get pod 报出没有在 default namespace 中没有 resources,这个是因为集群安装的时候会自动帮我们创建多 个 namespace,可以使用 sudo kubectl get ns 查看所有 namespace
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

靓仔明华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值