![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kubernetes
Tilyp
一个有理想的小小菜鸟
展开
-
kubernetes删除namespace进入Terminating状态的排查过程
起因: 安装kubeflow1.0.1版本时,产生一些错误想要删除重新安装,在删除namespace cert-manager时发现命令夯死,而且该命名空间长时间处于Terminating状态。过程: 我安照我之前的解决方案解决了此为问题,解决方案链接点此处,在我继续删除istio-system命名空间时又发生类似的问题。排查: 查看资源[r...原创 2020-04-15 16:57:38 · 1197 阅读 · 0 评论 -
kubeadm中集成GPU插件
nvidia驱动和nvidia-docker等安装请看以前我写的文章,nvidia驱动版本要求要高于384nvidia-docker版本要高于2设置docker默认运行环境nvidia>>> cat /etc/docker/daemon.json{ "default-runtime": "nvidia", "runtimes": { ...原创 2020-03-18 16:57:25 · 307 阅读 · 0 评论 -
openpai的tensorflow利用k8s分布式训练之FrameworkController
简述: openpai在基于YARN的任务调度工具FrameworkLaucher之后又添加了基于K8S的任务调度工具FrameworkController,感觉和kubeflow的TFJob类似,我们先来试试FrameworkController这工具如何单独使用,环境: k8s: 1.15.1 docker: 18.09.5...原创 2019-12-27 19:14:48 · 1452 阅读 · 0 评论 -
docker 容器进程被kill的原因查看
最近的docker容器经常被kill掉,k8s中该节点的pod也被驱赶,因而使用以下命令查看被kill的所有进程dmesg | grep -i -B100 'killed process'查看到pod被驱赶的原因:[3899860.525793] Out of memory: Kill process 64058 (nvidia-device-p) score 999 or sac...原创 2019-12-03 14:52:53 · 10001 阅读 · 4 评论 -
kubeflow0.6.2版本搭建
目录基础环境:安装kubeflow基础环境: 系统:centos7.6 kubernetes:1.14 内存需求: kubernetes > 1.11 cpu > 4 storage > 50G memory > 12G安装ku...原创 2019-10-14 17:25:47 · 1995 阅读 · 0 评论 -
kubernetes二进制安装
1. 基础环境准备1.1.服务规划 kube102 192.168.0.102 k8s-master etcd、kube-apiserver、kube-controller-manager、kube-scheduler kube101 192.168.0.101 ...原创 2019-10-14 19:56:18 · 2205 阅读 · 2 评论 -
kubenetes的pod和namespace处于Terminating状态的删除办法
1. POD处于Terminating状态的删除办法情况如下:[Tilyp@master ~]$ kubectl get pods --namespace kubeflowNAME READY STATUS RESTARTS AGEambassador-75b956fb48-vthq7 1/1 ...原创 2019-04-12 10:30:27 · 2452 阅读 · 1 评论 -
kubenetes基本操作
在用户认证等做完后无法运行kubectl exec -it mysql-st2ch -- /bin/bash报错如下:error: unable to upgrade connection: Forbidden (user=system:anonymous, verb=create, resource=nodes, subresource=proxy)解决办法:[Tily...原创 2019-04-12 09:58:34 · 571 阅读 · 0 评论 -
kubernetes安装elasticsearch状态显示CrashLoopBackOff解决
在利用kubernetes安装elasticsearch时遇到如下错误,我在安装之前已经在各个节点上测试镜像能否正常拉取[root@dmp-dn-001 /]# docker pull docker.elastic.co/elasticsearch/elasticsearch:6.2.4Trying to pull repository docker.elastic.co/elastic...原创 2018-12-11 21:23:16 · 3460 阅读 · 4 评论 -
Kubernetes创建pod一直处于ContainerCreating
在我创建pod时,该pod的状态一直如下:[root@master ~]# kubectl get podNAME READY STATUS RESTARTS AGEmysql-w1f4m 0/1 ContainerCreating 0 18m通过describe查看结果[root@m...原创 2018-12-07 15:06:11 · 385 阅读 · 0 评论