2024 年第二季度 Backblaze Drive 硬盘故障率统计数据

Backblaze发布了其2024年第二季度(Q2 2024)的硬盘驱动器统计数据。以下是该报告的一些关键点:

  • 截至2024年第二季度末,Backblaze在全球数据中心的云存储服务器中监控了总计288,665个硬盘(HDD)和固态硬盘(SSD)。

  • 从分析中排除了3,789个启动盘,其中包括2,923个SSD和866个HDD,这使得剩下用于审查的硬盘总数为284,876个。

硬盘故障率数据:

  • 2024年第二季度的年度化故障率(AFR)为1.71%,比2024年第一季度的1.41%有所上升,但低于一年前(2023年第二季度)的2.28%。

  • 有16个硬盘模型的AFR等于或低于1.71%,而13个模型的AFR高于这个数值。

  • 有两个硬盘模型在2024年第二季度没有出现任何故障:一个14TB的Seagate硬盘(型号ST14000NM000J)和一个16TB的Seagate硬盘(型号ST16000NM002J)。尽管这两个模型的硬盘数量和运行天数相对较少,但16TB的Seagate硬盘具有令人印象深刻的0.57%的终身故障率。

以下是原文翻译:

图片

截至 2024 年第二季度末,Backblaze 正在监控位于全球数据中心的云存储服务器中的 288,665 个硬盘 (HDD) 和固态硬盘 (SSD)。我们从此分析中删除了 3,789 个启动驱动器,其中包括 2,923 个 SSD 和 866 个硬盘。这样,我们还需要审查 284,876 个硬盘才能撰写本报告。我们将审查 2024 年第二季度的年化故障率 (AFR) 和合格驱动器型号的终身 AFR,我们还将检查驱动器的年龄与随时间变化的故障率。在此过程中,我们将分享我们对所呈现数据的观察和见解。

2024 年第二季度的硬盘故障率

对于 2024 年第二季度的季度分析,我们剔除了以下因素:季度末至少有 100 个驱动器投入使用的驱动器型号、本季度累计运行时间未超过 10,000 天的驱动器型号,以及使用寿命期间温度超过制造商规定的单个驱动器。剔除的驱动器总计 490 个,因此我们仅剩下 284,386 个驱动器,分为 29 个驱动器型号,供 2024 年第二季度分析使用。 

下表列出了这些驱动器型号的 AFR 和相关数据。该表按驱动器大小从大到小排序,然后按驱动器大小内的 AFR 排序。

图片

2024 年第二季度 Drive Stats 的注释和观察

  • AFR 上升: 2024 年第二季度的 AFR 为 1.71%。这高于 2024 年第一季度的 1.41%,但低于一年前(2023 年第二季度)的 2.28%。虽然季度环比增长有点令人惊讶,但 AFR 的季度波动是可以预料的。16 种驱动模型的 AFR 为 1.71% 或以下,而 13 种驱动模型的 AFR 高于。

  • 两个零故障: 2024 年第二季度,两款硬盘型号的故障率为零,分别是 14TB Seagate(型号:ST14000NM000J)和 16TB Seagate(型号:ST16000NM002J)。这两款硬盘在本季度的硬盘数量和使用天数都相对较少,因此它们的成功率有些低,但 16TB Seagate 硬盘型号的终身故障率非常可观,为 0.57%。

  • 又一个 GOAT 消失了:在第一季度,我们迁移了最后一批 4TB 东芝硬盘。在第二季度,我们迁移了最后一批 6TB 硬盘,包括所有平均使用年限为 9 年(108 个月)的 Seagate 6TB 硬盘。这款 Seagate 硬盘型号在 Backblaze 的使用寿命为 0.86%,令人印象深刻。

    目前,4TB Seagate(型号:ST4000DM000)是我们生产中最老的数据硬盘型号,平均使用年限为 99.5 个月。这些硬盘上的数据计划在未来一两个季度内使用我们的内部硬盘迁移系统 CVT进行迁移。它们的使用年限永远达不到九年。 

  • 10 年俱乐部:希捷 6TB 硬盘在达到 10 年使用期限后开始迁移,我们不禁想问:使用时间最长的数据硬盘是什么?答案是 4TB HGST 硬盘(型号:HMS5C4040ALE640),截至第二季度末,已使用 9 年 11 个月 23 天。唉,这款硬盘所在的 Backblaze Vault 正在迁移,许多其他使用时间超过 9 年的硬盘也是如此。我们将在下个季度看看它们中是否有任何硬盘在退役前进入 10 年俱乐部。

    虽然没有使用时间达到 10 年的数据硬盘,但有 11 个 HDD 启动硬盘超过了这个标准。事实上,其中一款 500GB 的 WD 硬盘(型号:WD5000BPKT)已使用超过 11 年。(嘘,不要告诉 CVT 团队。)

  • HGST 的惊喜:多年来,我们使用的 HGST 硬盘型号表现非常出色。因此,当 12TB HGST(型号:HUH721212ALN604)硬盘在第二季度的 AFR 为 7.17% 时,这是一件大事。这种不寻常的季度故障率实际上可以追溯到一年前,尽管 7.17% 的 AFR 是迄今为止最大的季度值。因此,在过去一年中,终身 AFR 从 0.99% 上升到 1.57%。虽然终身 AFR 并不令人担忧,但我们正在关注这一趋势。

硬盘寿命内故障率

截至 2024 年第二季度末,我们跟踪了 284,876 个运行中的硬盘。要考虑进行使用寿命审查,硬盘型号必须在 2024 年第二季度末拥有 500 个或更多硬盘,并且在其使用寿命内累计使用时间超过 100,000 天。当我们删除那些不符合使用寿命标准的硬盘型号后,我们剩下 283,065 个硬盘,分为 25 个型号进行分析,如下表所示。

图片

年龄、AFR 和蛇

我们业务中的一个真理是,不同的驱动器型号故障率不同。我们的目标是随着时间的推移为给定的驱动器型号开发故障配置文件。这样的配置文件可以帮助优化我们的驱动器更换和迁移策略,并最终保持我们的云存储服务的耐用性。

对于我们的数据驱动器群组,我们将研究截至 2024 年第二季度末至少有 100 万个驱动器天数的驱动器型号的使用寿命 AFR 随时间的变化。这样我们就有 23 个驱动器型号可供审查。我们将驱动器型号分为两组:平均年龄为 5 年(60 个月)或更短的驱动器型号,以及平均年龄超过 60 个月的驱动器型号。为什么要这样划分?这是企业级硬盘的典型保修期。 

让我们首先绘制平均使用年限为 60 个月或更短的 14 种驱动器型号的当前使用寿命 AFR,如下图所示。

图片

让我们通过以下四个象限的特征来回顾一下驱动模型:

  • 象限 I:此象限中的驾驶模型表现良好,AFR 低于 1.5%,相当可观。未来几个月,此象限右侧的驾驶模型可能需要比左侧的模型多一点关注。

  • 象限 II:这些驱动器型号的故障率超过 1.5%,但终生 AFR 约为 2%,仍然合理。重要的是,AFR 不会随着时间的推移而显着增加。

  • 象限 III:此象限中目前没有驱动器,但如果有,也不必担心。为什么?某些驱动器型号在早期会经历较高的故障率,然后按照浴盆曲线,随着使用时间的增加,其 AFR 会下降。 

  • 象限 IV:这些驱动模型才刚刚起步,刚刚开始建立其故障概况,目前来看情况良好。

乍一看,图表告诉我们一切似乎都很好。第一象限中的驱动器性能良好,第二象限中的两个驱动器可能会更好,但仍然可以接受,到目前为止,较新的驱动器型号也没有出现意外。让我们看看平均使用年限超过 60 个月的驱动器型号的情况如何,如下图所示。

图片

有 9 种硬盘型号符合平均使用年限标准,包括 Seagate 6TB 硬盘(黄色),其硬盘已于第二季度退役。如您所见,硬盘型号分布在所有四个象限中。与之前一样,象限 I 包含良好的硬盘,象限 II 和 III 是我们需要担心的硬盘,而象限 IV 型号目前看起来不错。 

例如,如果我们就此止步,我们可以决定 4TB Seagate 硬盘是 CVT 迁移过程的首选,但速度不会太快。所有这些硬盘型号都至少存在了五年,而且我们了解了它们随时间变化的故障率。因此,与其只依赖某个时间点,不如让我们在下图中查看它们随时间变化的故障率。

图片

我们称之为蛇形图,它显示了每种驱动器型号在一段时间内的使用寿命故障率。我们从 24 个月开始,以使图表不那么混乱。无论如何,一旦平均使用年限超过 60 个月,驱动器型号就会自行分类到象限 I 或 II。让我们看看每个象限中的驱动器。

  • 象限 I:截至 2024 年第二季度,九种硬盘型号中有五种位于象限 I。两款 4TB HGST 硬盘(棕色和紫色线)以及 6TB Seagate(红线)的线条几乎垂直,表明它们的故障率一直保持一致,尤其是在使用 60 个月后。这种随时间推移而表现出的一致性是我们希望看到的故障情况。8TB

    Seagate(蓝线)和 8TB HGST(灰线)的故障情况不太一致,随着使用时间的推移,它们的故障率都会增加。就 HGST 硬盘而言,从 48 个月开始,在 18 个月内,其使用寿命 AFR 从约 0.5% 上升到 1.0%,然后才趋于平稳。Seagate 硬盘从 60 个月开始,大约用了两年时间,从 1.0% 上升到近 1.5%,然后才趋于平稳。

  • 象限 II:其余 4 种硬盘型号位于此象限。三种型号,即 8TB Seagate(黄线)、10TB Seagate(绿线)和 12TB HGST(蓝绿色线)具有相似的故障曲线。这三种型号在其使用寿命的某个点都开始向右弯曲。换句话说,它们的故障率随着时间的推移而加速。虽然 8TB Seagate(黄色)显示出一些趋于平稳的迹象,但如果这种趋势继续下去,这三种型号都将受到密切关注和替换。4TB

    Seagate 硬盘(黑线)也位于象限 II。该硬盘型号正在积极迁移,并通过 CVT 流程被 16TB 及更大的硬盘取代。因此,很难判断几乎垂直的故障曲线是更换过程的函数还是硬盘型号故障率随着时间的推移趋于平稳。无论如何,该硬盘型号的迁移预计将在下一季度或两个季度完成。

正常故障概况

如果我们必须选择其中一种硬盘型号来代表正常故障情况,那将是 8TB Seagate(蓝线,型号:ST800DM002)。为什么?前 60 个月的故障率始终保持在 1.0% 左右,这是 Seagate 预测的 AFR。60 个月后,随着硬盘的老化,AFR 会增加,这是可以预料的。您可能以为我们会选择两种 4TB HGST 硬盘型号之一的故障情况(棕色和紫色线)。“问题”在于它们的故障率远低于任何硬盘制造商公布的 AFR。虽然这对我们来说很好,但遗憾的是,它们的年度故障率并不正常。

人工智能能帮忙吗?

使用 AI/ML 技术预测驱动器故障的想法已经存在好几年了,但作为第一步,让我们看看预测驱动器故障是否是一个值得用 AI 解决的问题。我们最近举办了一场网络研讨会“在 AL/ML 应用和服务中利用您的云存储数据”,其中我们概述了用于评估是否需要 AI/ML 来解决给定问题(在本例中为预测驱动器故障)的一般标准。这里适用的最突出的标准是,AI 最适合用于您无法一致地应用一组规则来解决问题的问题。 

模型的训练方法是获取源数据并应用算法迭代组合和权衡多个因素。输出是一个模型,可用于回答有关模型主题的问题,在本例中为驱动器故障。例如,我们使用去年给定驱动器模型的驱动器统计数据来训练模型。然后,我们使用驱动器 Z 的每日 SMART 统计数据和相关信息向模型提出一个问题。我们将这些数据用作模型的输入,虽然没有完全匹配,但模型将使用推理来制定驱动器 Z 随时间发生驱动器故障的概率响应。因此,驱动器故障预测似乎是使用 AI 的一个很好的候选对象。

目前尚不清楚的是,从一种驱动器模型中学到的知识是否可以应用于另一种驱动器模型。看一下上面的蛇形图,就可以直观地看到这个问题,因为每种驱动器模型的故障情况都不同,有时甚至截然不同。例如,您是否认为您可以在 4TB Seagate 驱动器(黑线)上训练一个模型,并使用它来预测 4TB HGST 驱动器模型(紫线和棕线)中的任一种驱动器故障?答案可能是肯定的,但这似乎不太可能。 

尽管如此,多年来已经发表了多篇研究论文和研究,试图确定是否可以使用 AI/ML 进行驱动器故障预测。我们将在接下来的几个月内对这些出版物进行审查,并希望能够阐明使用 AI 及时准确地进行驱动器故障预测的能力。

硬盘统计数据

自从我们开始记录、存储和报告用于在 Backblaze 数据存储云中存储数据的硬盘和 SSD 的运行统计数据以来,已经过去了 11 年多的时间。我们查看驱动器的遥测数据,包括其 SMART 统计数据和其他与健康相关的属性。我们不会读取或以其他方式检查存储的实际客户数据。 

source:https://www.backblaze.com/blog/backblaze-drive-stats-for-q2-2024/
  • 10
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值