现象
driver-4 Offline,驱动状态为未知。
处理过程
- 建议每个驱动下面新建个文件,便于根据目录里面的drive-x文件区分驱动
root@pve:/mnt/drive-4# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sdb 3.7T 695G 3.0T 19% /mnt/drive-2
/dev/sda 3.7T 695G 3.0T 19% /mnt/drive-1
/dev/sde 3.7T 695G 3.0T 19% /mnt/drive-5
/dev/sdc 3.7T 695G 3.0T 19% /mnt/drive-3
/dev/sdd 3.7T 694G 3.0T 19% /mnt/drive-4
cd /mnt/drive-1
touch drive-1
ls
# drive-1 minio
- 备份fatab文件
/dev/disk/by-uuid/15299c84-011c-4309-bb4a-c372733add7b /mnt/drive-1 xfs defaults 0 0
/dev/disk/by-uuid/74e6a198-9a2c-4939-aaa1-bb91879e917e /mnt/drive-2 xfs defaults 0 0
/dev/disk/by-uuid/c165edcd-9fae-4e7e-a912-8ce59d494409 /mnt/drive-3 xfs defaults 0 0
/dev/disk/by-uuid/d76e4c0c-3a62-4c45-8acf-4ac12f6ed67b /mnt/drive-4 xfs defaults 0 0
/dev/disk/by-uuid/5d369a0c-0bdf-478a-9146-8b2cad7f6e96 /mnt/drive-5 xfs defaults 0 0
- 使用CrystalDiskInfo查看
- 使用DiskGenius检测
https://www.diskgenius.cn/download.php
发现有55个坏道,好家伙!
- 联系京东换货
没想到直接给拿了个新的
最终恢复
硬盘插上后,会自动恢复,最好别让集群跑业务,让它自己慢慢的静静恢复吧
根因处理
kubesphere中安装了WhizardTelemetry 监控
即kube-prometheus-stack,prometheus里面retention默认为7d,超过七天的数据会删除,导致minio负载非常高(读写删同时进行),retention改为了3650d后,minio集群稳定了,并且怕数据存不下将storage之前的20Gi改为2000Gi。
后期要删除的话,统一集中删除,防止每个节点主动去淘汰缓存!
prometheusSpec:
image:
registry: quay.io
repository: prometheus/prometheus
tag: v2.51.2
replicas: 1
retention: 3650d
resources:
limits:
cpu: "4"
memory: 16Gi
requests:
cpu: 200m
memory: 400Mi
storageSpec:
volumeClaimTemplate:
spec:
resources:
requests:
storage: 2000Gi