以下是DBA张瑞关于SSD的分享,很有帮助,贴出来放在这里:
Hi,兄弟姐妹们,
中文站offer集群采用了MySQL数据库和SSD存储,大家都非常关心SSD的寿命和可靠性的问题,经过一段时间的线上使用,SSD整体表现稳定,但是一直没有拿到有关“磨损”的具体数据。
我们的SSD都是经过RAID卡做了硬件RAID,因为RAID卡屏蔽了具体SSD盘的信息,所以要在线取到SSD盘的信息有些困难。最近,终于有办法拿到了SSD盘的SMART信息,我把重点的三个指标分享给大家:
1. Media Wearout Indicator
表示SSD上NAND的擦写次数的程度,初始值为100,随着擦写次数的增加,开始线性递减,递减速度按照擦写次数从0到最大的比例。一旦这个值降低到1,就不再降了,同时表示SSD上面已经有NAND的擦写次数到达了最大次数。这个时候建议需要备份数据,以及更换SSD。
解释:直接反映了SSD的磨损程度,100为初始值,0为需要更换,有点类似游戏中的血点。
结果:offer集群基本上都在99-100,磨损的程度非常低。
2. Re-allocated Sector Count
出厂后产生的坏块个数,初始值为100,如果有坏块,从1开始增加,每4个坏块增加1
解释:坏块的数量间接反映了SSD盘的健康状态。
结果:offer集群基本上都是0,坏块的数量很少。
3. Host Writes Count
主机系统对SSD的累计写入量,每写入65536个扇区raw value增加1
解释:SSD的累计写入量,写入量越大,SSD磨损情况越严重。每个扇区大小为512bytes,65536个扇区为32MB
结果:offer集群的SSD单块盘累计写入量大约是40T,有些盘甚至达到100T
,
结论:offer集群是压力最大的MySQL集群,因为长期测试的原因,每块盘都被写入了大量数据,但是从数据库上看,SSD的磨损状况依然非常低,坏块也很少,证明SSD目前的状况良好。
这份数据也证明,如果正确使用,SSD的可靠性还是非常高的,而且可以有方法监控到其磨损程度,在其发生故障前,提前更换,保证系统的可用性。
大家可以放心啦,老板可以放心啦,我们也放心啦!