遇到的错误
默子昂
9成的错误都是人为的
展开
-
linux 组件报错笔记
【代码】linux 运维笔记。原创 2023-02-23 14:15:37 · 1211 阅读 · 0 评论 -
K8S 报错笔记--持续更新
代码】K8S 报错笔记--持续更新。原创 2022-08-08 13:40:51 · 4862 阅读 · 0 评论 -
修复XFS文件系统的过程
通过告警得知,有一台节点进入notready状态,登陆主机排查发现node组件异常,通过日志分析得知 数据盘异常,切换到挂载盘目录下发现无法正常写入状态如下[root@k8s-master /app ]# lsls: cannot access app: Input/output error解决方法#卸载挂载umount /app#返回设备正忙,无法卸载说明有进程还在挂载中跑#通过lsof /dev/mapper/vg--docker-lvapp #没有看到进...原创 2021-07-06 15:35:01 · 600 阅读 · 1 评论 -
docker内存溢出异常
E0630 15:40:19.507103 3953 pod_workers.go:191] Error syncing pod 2b0e72a7-3678-4554-aa27-45734035b5d6 ("chaosblade-tool-pv9sz_default(2b0e72a7-3678-4554-aa27-45734035b5d6)"), skipping: failed to "CreatePodSandbox" for "chaosblade-tool-pv9sz_default(2b0.原创 2021-07-06 15:09:09 · 3669 阅读 · 1 评论 -
查询目录下所有子目录的路径
我现在想要清除一台主机上的k8s相关的组件,但是发现有很多被挂载的目录无法删除每个目录的结构都很麻烦(十来层目录),必须要先umount 后才能删除,我们必须先获取他们的路径vi ss.sh#添加#!/usr/bin/basha_root="$1"for sub in $(ls $a_root); do if [ -d ${a_root}/${sub} ]; then ./ss.sh ${a_root}/${sub} .原创 2021-05-31 09:40:48 · 566 阅读 · 2 评论 -
pod异常
1记录一次pod无法创建控制器创建完成了,但是pod副本数量一直为0原因,deploymen中含有sa,没有做权限一般是有PVC 或者 sa没挂上原创 2021-06-18 11:20:23 · 244 阅读 · 0 评论 -
helm 异常
1. helm install异常,实体太大[root@192-168-1-20 helm_setup]# helm install calico .Error: create: failed to create: Request entity too large: limit is 3145728原创 2021-06-18 11:05:28 · 1597 阅读 · 0 评论 -
记录coredns外部无法解析的情况
我们这边coredns的策略模式是 dnsPolicy: Default他的一个解析模式是从宿主机获取/etc/resolv.conf挂载到容器中进行解析为了方便我们平时测试解析是否正常,以及容器,如下nameserver POD_IDnameserver 169.169.0.100search svc.cluster.local cluster.localoptions ndots:5但是有一次配置时出现了一个情况,我们在外部去curl解析时报错[root@192-168.原创 2021-06-18 11:01:07 · 1177 阅读 · 0 评论 -
ansible使用时遇到的问题
}10.2xx.xxx.xxx | FAILED! => { "ansible_facts": { "discovered_interpreter_python": "/usr/bin/python" }, "changed": false, "module_stderr": "Shared connection to 10.2xx.xxx.xxx closed.\r\n", "module_stdout": "\r\n", .原创 2021-06-18 10:57:28 · 5275 阅读 · 0 评论 -
pod异常导致节点异常
skipping pod synchronization - PLEG is not healthy: pleg was last seen active 3m21.511247895s ago; threshol is 3m0s重点放在node、pod这些东西的状态上,不用太关心k8s组件的日志状况,节点每隔5-10分钟出现notready,然后恢复#查看节点pod出现以下情况,pod不正常paas-admin datagather-es-es-master-..原创 2021-06-18 10:52:06 · 584 阅读 · 0 评论 -
kubernetes报错笔记 (四) kube-apiserver
1. 虚拟机kube-apiserver起不来#报错信息Error: Unable to find suitable network address.error='no default routes found in "/proc/net/route" or "/proc/net/ipv6_route"'. Try to set the AdvertiseAddress directly or provide a valid BindAddress to fix this.. #解决方法原创 2021-06-18 10:21:45 · 2229 阅读 · 0 评论 -
kubernetes报错笔记 (三) kube-proxy
1. conntrackFailed to delete stale service IP 169.169.0.100 connections, error: error deleting connection tracking state for UDP service IP: 169.169.0.100, error: error looking for path of conntrack: exec: "conntrack": executable file not found in $PAT原创 2021-06-18 10:15:47 · 1322 阅读 · 0 评论 -
kubernetes报错笔记 (二) kubelet
1. 想不起来是什么时候的了orphaned pod "82646587-78c6-47e4-9509-7d4ff8debbc0" found, but volume subpaths are still present on disk : There were a total of 2 errors similar to this. Turn up verbosity to see them.https://www.ziji.work/kubernetes/kubelet-orphane原创 2021-06-18 10:14:11 · 4069 阅读 · 0 评论 -
harbor错误
1. 解析错误导致harbor无法登陆Error response from daemon: Get http://xxx.xxx.xxx.xxx:8082/v2/: Get http://harbor-213:8082/service/token?account=admin&client_id=docker&offline_token=true&service=harbor-registry: net/http: request canceled while waitin原创 2021-06-18 10:02:15 · 1526 阅读 · 0 评论 -
configmap更新报错记录
环境很老了,prometheus的yaml文件已经找不到了,现在要修改configmaps的配置为了方式出现异常,我们先将cm导出kk get pod prometheus-config -o yaml > prom.yml导出后,我首先 apply 了一下确认是当前使用的yaml但是我改完配置后apply时报一下的问题for: "prometheus-config.yaml": Operation cannot be fulfilled on configmaps ...原创 2021-06-18 09:54:37 · 2951 阅读 · 0 评论 -
kubernetes报错笔记 (五)docker异常记录
1. docker进程僵死无法启动服务docker无法启动,start restart、stop均会卡死查看containerd服务,没有启动,/run/containerd没有配置信息ps -ef | grep docker 发现大量进程手动进行杀死kill -s 9 pid原创 2021-06-18 10:22:37 · 3227 阅读 · 0 评论 -
kubernetes报错笔记 (一) calico报错
错误1 read udp xxx:29270->169.169.0.10:53: i/o timeout read 主机地址加端口 >> 169.169.0.10:53好像是这个解决方法#错误原因vi /etc/hosts 文件中缺少以下配置127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localho原创 2021-05-31 09:03:35 · 16872 阅读 · 0 评论 -
番外篇 etcd服务无法启动的修复方法
今天有一个环境的master节点的挂载掉线了,恢复之后该节点的etcd就起不来了。猜测应该是和其他etcd节点数据不同步导致的,下面我们模拟一下案例#查看集群组件状态[root@k8s-master01 ~]# kubectl get csNAME STATUS MESSAGE ERRORscheduler Healthy ok controller-mana..原创 2021-01-18 18:00:53 · 11893 阅读 · 2 评论