blktrace工具定位硬盘时延高问题

最新推荐文章于 2023-08-09 23:55:59 发布

好不玩呀

最新推荐文章于 2023-08-09 23:55:59 发布

阅读量447

点赞数 1

文章标签： linux 服务器运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1234333/article/details/130337688

版权

先贴一个工具介绍，如下

Blktrace简介

blktrace是一个针对Linux内核中块设备IO层的跟踪工具，用来收集磁盘IO信息中当IO进行到块设备层（block）时的详细信息（如IO请求提交、入队、合并、完成等信息），是由Linux内核块设备层的维护者开发的，目前已经集成到内核2.6.17及其后内核版本中。blktrace可以获取IO请求队列的各种详细的情况，包括进行读写的进程名称、进程号、执行时间、读写的物理块号、块大小等。 blktrace工作原理

（1）blktrace测试时会分配物理机上逻辑CPU数量个线程，并且每一个线程绑定一个逻辑CPU来收集数据。（2）blktrace在debugfs挂载的路径（默认/sys/kernel/debug）下每个线程产生一个文件，然后调用ioctl函数，通过系统调用交由内核处理，由内核经由debugfs文件系统往文件描述符写入数据。（3）blktrace需要结合blkparse使用，由blkparse来解析blktrace产生的特定格式的二进制数据。（4）blkparse仅打开blktrace产生的文件，从文件里面取数据进行解析展示。

下面先描述怎么使用工具判断问题的，最后再罗列整理下这个工具的其它用途，平时也没用过，也不大熟悉它的其它功能和各个参数，就是这次学到了这种定位判断方法

用这个工具可以很好的定位硬盘时延高的相关问题，比如本次涉及到这个工具的使用是因为遇到了现场nvme盘带宽和利用率异常的问题，如下图。应客户要求服务器厂商参与问题定位

接下来的blktrace，blkparse，bbt都属于blktrace包里的工具，首先直接获取一个存储设备或者文件系统的I/O数据,没设置时间的话需要手动ctrl C停止

blktrace –d /dev/xxxxx

然后当前执行目录下就有很多文件，如下图

我们把它合并统计一下，用下面这个命令

blkparse -i nvme0n1 -d nvme0n1.blktrace.bin

然后用bbt工具转化分析一下

btt -i nvme0n1.blktrace.bin > btt.log

然后直接查看这个文件，就有如下结果了

在看这个图之前需要了解一些原理，如下

数据中相关字母的含义，每个字母都是一个阶段

Q – 即将生成IO请求

|

G – IO请求生成

|

I – IO请求进入IO Scheduler队列

|

D – IO请求进入driver

|

C – IO请求执行完毕

根据以上步骤对应的时间戳就可以计算出I/O请求在每个阶段所消耗的时间：

Q2G – 生成IO请求所消耗的时间，包括remap和split的时间；

G2I – IO请求进入IO Scheduler所消耗的时间，包括merge的时间；

I2D – IO请求在IO Scheduler中等待的时间；

D2C – IO请求在driver和硬件上所消耗的时间；

Q2C – 整个IO请求所消耗的时间(Q2I + I2D + D2C = Q2C)，相当于iostat的await。

如果I/O性能慢的话，以上指标有助于进一步定位缓慢发生的地方：

D2C可以作为硬件性能的指标；

I2D可以作为IO Scheduler性能的指标

那么我这个数据中D2C占的比较多是比较合理的，设备层确实会占据较多时间，但是客户现场的结果如下，明显是应用层面的问题，最终客户确实在集群策略方面找到了问题原因

如下图就是IO 调度器的问题，所以I2D耗时比较大

其它原理和工具使用可以到网上写的比较好的博客上学习下

链接：

https://blog.csdn.net/RainbowBoy/article/details/80492336

https://blog.csdn.net/qq_23929673/article/details/93176725

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
blktrace工具定位硬盘时延高问题

blktrace是一个针对Linux内核中块设备IO层的跟踪工具，用来收集磁盘IO信息中当IO进行到块设备层（block）时的详细信息（如IO请求提交、入队、合并、完成等信息），是由Linux内核块设备层的维护者开发的，目前已经集成到内核2.6.17及其后内核版本中。那么我这个数据中D2C占的比较多是比较合理的，设备层确实会占据较多时间，但是客户现场的结果如下，明显是应用层面的问题，最终客户确实在集群策略方面找到了问题原因。Q2G – 生成IO请求所消耗的时间，包括remap和split的时间；
复制链接

扫一扫

好不玩呀 CSDN认证博客专家 CSDN认证企业博客

码龄5年

25: 原创

119万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

272: 积分

13: 粉丝

18: 获赞

5: 评论

36: 收藏

私信

关注

热门文章

最新评论

CPU降频监测
CSDN-Ada助手: 恭喜您开始博客创作，这篇关于CPU降频监测的博客很有深度和实用性。希望您能继续分享更多有价值的技术文章，让我们一起学习进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
关于FIO测试和硬盘性能问题测试学习总结
CSDN-Ada助手: 非常感谢用户分享这篇关于FIO测试和硬盘性能问题测试的学习总结。这篇博客内容详实、结构清晰，让人学到了不少有用的知识。恭喜用户在持续学习和创作中不断进步！希望用户能够继续保持，继续分享自己的学习和思考，让更多的人受益。下一步的创作建议，可以考虑挑选一些热门话题，结合自己的实践和思考，给读者带来更多启发和思考。期待更多优秀的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
关于FIO测试和硬盘性能问题测试学习总结
好不玩呀: write短时间是会偏高的，时间久了会降下来处于稳定状态。允许的话每一次测试前最好预写一下硬盘，数据会比较真实
内存带宽性能偏低问题处理和经验总结
CSDN-Ada助手: 非常感谢作者分享的这篇博客，对于内存带宽性能偏低问题的处理和经验总结，我学到了很多。恭喜你成功写出了第四篇博客，希望你能够继续保持创作的热情，分享更多有价值的内容。我的建议是，可以尝试深入研究一些新的技术或者领域，挖掘更多有趣的话题，让读者们能够更好地受益。期待你的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
CPLD批量升级优化方案
CSDN-Ada助手: 非常感谢您分享这篇有关CPLD批量升级优化方案的博客，阅读后我对这个领域有了更加深入的了解。您的思路很清晰，写作也非常简洁明了，让人能够快速掌握关键信息。同时，我也想提醒您，在进行CPLD批量升级时，还需要注意一些硬件相关的知识，例如如何正确连接线路、如何保证电源稳定等等。希望您能够继续分享更多有价值的内容，期待您的下一篇博客。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。