1. 问题描述
由于创建 rancher 节点服务器时,没有规划好磁盘目录空间,按照默认配置,根目录 /
只有 50G,而 docker 的默认安装路径是 /var/lib/docker
,导致根目录使用率达到 85%,Rancher 节点频繁报磁盘压力告警 kubelet has disk pressure
,所以需要修改 docker 默认数据目录。
2. 修改 docker 默认数据目录
- 首先查看当前数据目录
docker info | grep 'Docker Root Dir'
Docker Root Dir: /var/lib/docker
- 停止 docker 服务
systemctl stop docker
- 在有空间的目录下创建新目录
mkdir -p /home/docker/
- 拷贝数据至新目录
cp -R /var/lib/docker /home/docker/
- 修改配置文件
vi /etc/docker/daemon.json
配置 “graph” 参数,我这里 docker 版本是 20.10,其他版本自行查看配置方法
{
"graph": "/home/docker"
}
- 加载配置文件并重启服务
systemctl daemon-reload
systemctl restart docker
- 修改后,重新查看 docker 信息
docker info | grep 'Docker Root Dir'
Docker Root Dir: /home/docker
- 确认无误后,删除根目录下老数据
rm -rf /var/lib/docker/
3. 问题
由于在 Rancher 中之前已经在该节点部署过工作负载,再次启动容器时报错如下:
failed to create sandbox:
ResolvConfPath /home/docker/container/xxx/resolv.conf does not exist
尝试了很多方法都无法解决该问题,最终只能重新加入该节点。
- 驱散节点
在 Rancher 节点管理中,驱散该节点,驱散完成后状态为drained
,然后删除该节点 - 清理节点
使用官方节点清理脚本清理该节点
#!/bin/bash
KUBE_SVC='
kubelet
kube-scheduler
kube-proxy
kube-controller-manager
kube-apiserver
'
for kube_svc in ${KUBE_SVC};
do
# 停止服务
if [[ `systemctl is-active ${kube_svc}` == 'active' ]]; then
systemctl stop ${kube_svc}
fi
# 禁止服务开机启动
if [[ `systemctl is-enabled ${kube_svc}` == 'enabled' ]]; then
systemctl disable ${kube_svc}
fi
done
# 停止所有容器
docker stop $(docker ps -aq)
# 删除所有容器
docker rm -f $(docker ps -qa)
# 删除所有容器卷
docker volume rm $(docker volume ls -q)
# 卸载mount目录
for mount in $(mount | grep tmpfs | grep '/var/lib/kubelet' | awk '{ print $3 }') /var/lib/kubelet /var/lib/rancher;
do
umount $mount;
done
# 备份目录
mv /etc/kubernetes /etc/kubernetes-bak-$(date +"%Y%m%d%H%M")
mv /var/lib/etcd /var/lib/etcd-bak-$(date +"%Y%m%d%H%M")
mv /var/lib/rancher /var/lib/rancher-bak-$(date +"%Y%m%d%H%M")
mv /opt/rke /opt/rke-bak-$(date +"%Y%m%d%H%M")
# 删除残留路径
rm -rf /etc/ceph \
/etc/cni \
/opt/cni \
/run/secrets/kubernetes.io \
/run/calico \
/run/flannel \
/var/lib/calico \
/var/lib/cni \
/var/lib/kubelet \
/var/log/containers \
/var/log/kube-audit \
/var/log/pods \
/var/run/calico \
/usr/libexec/kubernetes
# 清理网络接口
no_del_net_inter='
lo
docker0
eth
ens
bond
'
network_interface=`ls /sys/class/net`
for net_inter in $network_interface;
do
if ! echo "${no_del_net_inter}" | grep -qE ${net_inter:0:3}; then
ip link delete $net_inter
fi
done
# 清理残留进程
port_list='
80
443
6443
2376
2379
2380
8472
9099
10250
10254
'
for port in $port_list;
do
pid=`netstat -atlnup | grep $port | awk '{print $7}' | awk -F '/' '{print $1}' | grep -v - | sort -rnk2 | uniq`
if [[ -n $pid ]]; then
kill -9 $pid
fi
done
kube_pid=`ps -ef | grep -v grep | grep kube | awk '{print $2}'`
if [[ -n $kube_pid ]]; then
kill -9 $kube_pid
fi
# 清理Iptables表
## 注意:如果节点Iptables有特殊配置,以下命令请谨慎操作
sudo iptables --flush
sudo iptables --flush --table nat
sudo iptables --flush --table filter
sudo iptables --table nat --delete-chain
sudo iptables --table filter --delete-chain
systemctl restart docker
- 重新加入该节点