hdfs的慢盘检测

陈猿解码

于 2024-08-29 00:05:33 发布

阅读量810

点赞数 13

文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hncscwc/article/details/141654943

版权

这是我的第105篇原创文章

慢盘检测引入的背景

hdfs作为一个存储系统，势必会使用大量的磁盘。然而，在长期的使用过程中，磁盘也难免会磨损，出现损坏的磁道或扇区，导致磁盘读写变慢，IO操作耗时变长，从而引发业务的耗时增加（例如spark/flink计算任务的耗时增加等）。但是，要确认是磁盘变慢引起的业务耗时增加，这个排查过程是比较困难的，同时排查过程也是非常耗时耗力的。

在“降本增效”，运维便利性大环境的趋势下，hdfs引入了慢盘检测的特性。

慢盘识别的原理

所谓"慢盘"，只是一个相对的概念，也就是在同一个DN中，对某个磁盘IO操作的耗时相比其他磁盘更大，并且超过了配置的指定阈值，那么这个盘就被定义为"慢"盘。

了解了这个慢盘的定义，其实慢盘识别的大概逻辑基本上也就清楚了。既然是比较磁盘IO操作的耗时，自然而然首先是要记录IO的耗时。在Datanode里面，每次涉及磁盘IO操作的动作，都会统计其耗时，例如sync、flush、read、write等，这些信息最终都会被存储在metrics中。

有了IO操作耗时的统计之后，在独立的慢盘检测线程中，会定时获取所有磁盘的IO操作耗时信息，然后按类别分别计算出绝对中位差，根据中位差计算出上限值（包括与配置指定阈值的比较，两者取较大的值作为真正的上限值），磁盘IO操作耗时大于这个上限值的就是慢盘了。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。