MinIO集群故障，其中一块driver-4异常

杜莱恩特Durant

已于 2025-05-20 21:54:48 修改

阅读量236

点赞数 5

分类专栏： Homelab # 基础设施篇文章标签： k8s minio kubernetes

于 2025-05-20 21:53:12 首次发布

本文链接：https://blog.csdn.net/sinat_15906013/article/details/148098912

版权

Homelab 同时被 2 个专栏收录

27 篇文章

订阅专栏

基础设施篇

13 篇文章

订阅专栏

现象

driver-4 Offline,驱动状态为未知。
在这里插入图片描述

处理过程

建议每个驱动下面新建个文件，便于根据目录里面的drive-x文件区分驱动

root@pve:/mnt/drive-4# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sdb              3.7T  695G  3.0T  19% /mnt/drive-2
/dev/sda              3.7T  695G  3.0T  19% /mnt/drive-1
/dev/sde              3.7T  695G  3.0T  19% /mnt/drive-5
/dev/sdc              3.7T  695G  3.0T  19% /mnt/drive-3
/dev/sdd              3.7T  694G  3.0T  19% /mnt/drive-4

cd /mnt/drive-1
touch drive-1 
ls
# drive-1  minio

备份fatab文件

/dev/disk/by-uuid/15299c84-011c-4309-bb4a-c372733add7b /mnt/drive-1 xfs defaults 0 0
/dev/disk/by-uuid/74e6a198-9a2c-4939-aaa1-bb91879e917e /mnt/drive-2 xfs defaults 0 0
/dev/disk/by-uuid/c165edcd-9fae-4e7e-a912-8ce59d494409 /mnt/drive-3 xfs defaults 0 0
/dev/disk/by-uuid/d76e4c0c-3a62-4c45-8acf-4ac12f6ed67b /mnt/drive-4 xfs defaults 0 0
/dev/disk/by-uuid/5d369a0c-0bdf-478a-9146-8b2cad7f6e96 /mnt/drive-5 xfs defaults 0 0

使用CrystalDiskInfo查看
使用DiskGenius检测
https://www.diskgenius.cn/download.php
发现有55个坏道，好家伙！
联系京东换货
没想到直接给拿了个新的

最终恢复

硬盘插上后，会自动恢复，最好别让集群跑业务，让它自己慢慢的静静恢复吧
在这里插入图片描述

根因处理

kubesphere中安装了WhizardTelemetry 监控即kube-prometheus-stack，prometheus里面retention默认为7d，超过七天的数据会删除，导致minio负载非常高（读写删同时进行），retention改为了3650d后，minio集群稳定了，并且怕数据存不下将storage之前的20Gi改为2000Gi。
后期要删除的话，统一集中删除，防止每个节点主动去淘汰缓存!

    prometheusSpec:
      image:
        registry: quay.io
        repository: prometheus/prometheus
        tag: v2.51.2
      replicas: 1
      retention: 3650d
      resources:
        limits:
          cpu: "4"
          memory: 16Gi
        requests:
          cpu: 200m
          memory: 400Mi
      storageSpec:
        volumeClaimTemplate:
          spec:
            resources:
              requests:
                storage: 2000Gi