磁盘smart错误日志重点关注信息


(Author:于晓杰 Date2018-5-18)

一、背景

    工作中经常会测试各种磁盘,在测试过程中,发现有些SSD或机械盘的SMART日志里有error信息,经与实际使用部门同事沟通,结合实际情况,总结以下错误信息需要重点关注。尤其是旧盘,出现错误的几率更大,发布报告时应重点说明之。

 

二、总结

序号

SATA硬盘smart指标

SAS硬盘对应smart指标

描述

权重

1

SAMRT-health

(磁盘健康状况)

SAMRT Health Status

(磁盘健康状况)

PASSED或OK为好,如果Failed一般认为硬盘有问题

重要

2

Reallocated_Sector_ct

(重映射扇区数量)

 

达到一定数量会认为硬盘有问题

次要

3

Current_Pending_sector

不稳定扇区数

Total uncorrected errors

(不能修复的错误总数)

即使数量不多,也认为硬盘有问题

重要

4

SMART Error Log

(SMART错误日志)

Non-medium error count

(非媒介错误计数)

当数量较大时一般认为硬盘有问题

次要

5

SMART self-test log

(SMART自检日志)

SMART self-test log

(SMART自检日志)

以最新自检日志为准,如果有错误一般判断硬盘有问题

重要

6

以上判断硬盘是否有问题的条件都是“或”关系, 即满足一条就认为硬盘有问题。

除了SMART信息,实际使用时还会参考Messages硬盘读写错误。

 

说明:SAS硬盘与SATA硬盘指标类似,其中

1.Total uncorrected errors判断条件与SATA盘的Current_Pending_Sector类似。

2.Non-medium error count(非媒介错误计数)计数:字面意思此错误好像与硬盘介质无关,但实际使用时有过案例,故障机器该计数器累加到千万级别,硬盘性能非常差。所以线上对Non-medium error count计数器到100万以上,且有性能问题的硬盘做报警会做进一步处理。由于硬盘接口也是链路的一部分,不能完全将硬盘排除掉,所以此Non-medium error count指标也应算作判断磁盘健康状况的指标之一。

 

三、截图说明

SATA 硬盘smart信息截图:

 

 

 

 

  

SAS 硬盘smart信息截图

 

 

四、参考资料及链接

来源:

https://www.crifan.com/hdtune_detect_out_05_reallocated_sector_count_c4_reallocated_event_count/

 

 

摘取部分内容如下:

硬盘SMART参数(05,C5)与(C7)解惑

05)(Reallocated Sectors Count

是非常重要的一项,称为重新映射扇区计数它直接表示硬盘是否已经出现了不良扇区。

以前的硬盘只要某磁道出现一个坏扇区,该磁道就算“坏磁道(Bad Track)”,修复时就整个磁道所有扇区一起“跳过(skipped)”。所以,坏磁道和坏扇区没有区别开,一起称为“坏道”。而现在的硬盘每个磁道划为数百上千个扇区,不能因为有一个坏扇区就丢掉整个磁道。再说硬盘在制造完成后本身就已有相当多的不良扇区(可能有成百上千之多),所以为了提高成品率,硬盘的设计容量是大于标称容量的,多余的那部分(用户不可见的)容量就是用来弥补“制造时已出现的”以及“以后使用时新增的”不良扇区的。这也是现代硬盘的一个自修复功能,只要这个功能在起作用,你就不会发现硬盘出现坏道,所以说“坏道”也是一个应该淘汰的老词了。

这一自修复功能的原理是:当硬盘的某扇区持续出现读/写/校验错误时,硬盘固件程序会将这个不良扇区的地址重定向到预先保留的某个备用扇区,这就称为重新映射扇区。此后这个不良扇区不会再被使用,这等于将这个不良扇区屏蔽了,所以这样的硬盘容量不会减少,在Windows常规检测中也不会发现坏扇区,只有从SMART参数中才能发现已经有不良扇区被替换。

完好的硬盘,(05)项的数据肯定为零,当前值远大于临界值。如果数据不为零就表示已经有不良扇区被“重映射”,被重映射的扇区增加,当前值就会下降。如果当前值下降到接近临界值,就说明备用扇区将用尽。

 

C5)(Current Pending Sector Count

是当前待映射扇区计数这一参数的数据表示了“不稳定”的扇区数,即“等待被映射”的扇区数量。因为扇区仅仅读取错误并不会导致立即重映射,只有在写入失败时才会发生重映射。 
所以,如果有扇区在读取时出现错误,(C5)就会有计数,表示有扇区不稳定。如果该扇区随后被读写成功,等待被映射的操作就会取消,(C5)的计数会下降。如果下一次对该扇区的写操作继续发生错误,就会产生重映射,然后(05)计数要增加,(C5)计数随之下降。如果以后长时间并未再对该扇区进行任何读写操作,那么(C5)的计数也会一直维持下去。

因此,当你的硬盘发现(05)参数有了数据量后,并不需要任何操作,只要注意以后的发展。如果(05)的数据量不大,也不再增长,那这块硬盘还可继续使用。若(05)的数据不断上升,说明硬盘已处于不稳定状态,应当立即备份数据,调换硬盘了。因为备用扇区一旦用尽,再有不良扇区就会真的出现坏道导致数据丢失。即使使用专门的工具把坏道隔离出来,也不能保证不再出现新的坏道,而且硬盘容量会明显减少。

由于不同硬盘的备用扇区数量并不相同,所以单看(05)的数据量并不能判断硬盘还可支持多长时间,还要注意(05)的当前值,即使(05)的数据量不大,但当前值下降很快,甚至接近临界值,也应果断调换硬盘。另外,有的硬盘(05)的数据量很大,但不再增长,而且当前值也下降很少,这样的硬盘最好也不要再使用,因为保留的备用扇区都是位于磁盘的尾部,大量使用保留扇区将大大增加磁头的寻道操作,使得读写效率下降,导致系统运行缓慢。

C7)(Interface Cyclic Redundancy CheckICRC

参数也是比较引人注意的,这个参数的数据累计了通过接口循环冗余校验发现的数据线传输错误。如果这个值不为0而且持续增长,表示硬盘控制器→数据线→硬盘接口出现错误,劣质的数据线、接口接触不良都可能导致此现象,并将导致数据传输速度下降,与硬盘本身倒关系不大。

唯一要了解的是,有些新硬盘的这一参数也有一定数据量,这并不表示硬盘有什么质量问题。因为(C7)参数的数据只会增长,不会归零。所以当你更换了数据线、清洁了接口后发现数据不再增长,即表示问题已解决。

 

  • 9
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
要说Linux用户最不愿意看到的事情,莫过于在毫无警告的情况下发现硬盘崩溃了。诸如RAID的备份和存储技术可以在任何时候帮用户恢复数据,但为预防硬件崩溃造成数据丢失所花费的代价却是相当可观的,特别是在用户从来没有提前考虑过在这些情况下的应对措施时。 硬盘的故障一般分为两种:可预测的(predictable)和不可预测的(unpredictable)。后者偶而会发生,也没有办法去预防它,例如芯片突然失效,机械撞击等。但像电机轴承磨损、盘片磁介质性能下降等都属于可预测的情况,可以在在几天甚至几星期前就发现这种不正常的现象。 对于可预测的情况,如果能通过磁盘监控技术,通过测量硬盘的几个重要的安全参数和评估他们的情况,然后由监控软件得出两种结果:“硬盘安全”或“不久后会发生故障”。那么在发生故障前,至少有足够的时间让使用者把重要资料转移到其它储存设备上。 最早期的硬盘监控技术起源于1992年,IBM在AS/400计算机的IBM 0662 SCSI 2代硬盘驱动器中使用了后来被命名为Predictive Failure Analysis(故障预警分析技术)的监控技术,它是通过在固件中测量几个重要的硬盘安全参数和评估他们的情况,然后由监控软件得出两种结果:“硬盘安全”或“不久后会发生故障”。 SMART的目的是监控硬盘的可靠性、预测磁盘故障和执行各种类型的磁盘自检。如今大部分的ATA/SATA、SCSI/SAS和固态硬盘都搭载内置的SMART系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值