在分析报告中数据给出了
- 以块设备为分析对象,分析得出I/O操作次数、I/O数据大小、I/O队列深度、I/O吞吐率、I/O操作时延等信息。
- 支持关联I/O操作时的进程/线程及调用栈信息,包括时间、时间、块数、CPU核、进程ID进程名称、调用栈等信息。
- 支持关联I/O操作时应用层的I/O APIS,包括进程PID、函数名、调用次数、平均执行时间.
总执行时间、执行时问占比等信息。 - 基于I/O操作数据分布情况判断是随机操作还是顺序操作,并给出相应的优化建议。
I/O分析原理
在块设备层,通过ftrace工具跟踪内核的tracepoint事件,得到每个I/O操作的全部信息
通过关联这些tracepoint事件,分析得到操作数据大小、操作时延等信息。
针对一段时间内的I/O操作进行统计分析,进一步得到数据块分布、操作时延分布、数据大小分布等等信息。
tracepoint事件只能反映到内核针对I/O的处理,而无法反映应用层的处理(非direct方式)。所以通过获取应用层I/O API调用信息,形成内核层与应用层处理的简单映射,指导应用层的优化,例如通过某个段时间的数据块分布是连续还是随机,优化对应应用层的I/O请求。
支持获取自研盘内部性能数据。
I/O分析举例
sda的IOPS和吞吐量上不去。通过工具可以获取这段时间内的详细IO操作情况,得到进行IO操作的进程及其调用栈信息,可以得到进行IO操作的进程采用的是同步操作。
进一步进行IO APIs跟踪可以得到具体的调用信息
资源调度分析
采集进程/线程对CPU、内存、存储IO等资源的消耗情况,获得对应的使用率、饱和度、错误次数等指标,以此识别性能瓶颈。针对部分指标项,根据当前已有的基准值和优化经验提供优化建议。支持分析单个进程的系统调用情况。
进程/线程调度信息,识别线程是否频繁上下文切换;cpu是否频繁调度
NUMA节点切换情况,对于频繁切换的,会给出核绑优化建议
分析在进程线程在各个时间的运行情况,能够方便识别频繁上下文切换的线程
分析CPU核在各个时间点的运行状态,如:idle、running等。如果是running状态,能关联在cpu核上运行的进程/线程信息
同时能够高亮显示某个线程在各个cpu核上的运行情况
资源调度分析原理
分析工具会采集cpu调度事件数据,从进程/线程的角度排列各个事件,计算各个事件之间的时间差,并标记对应的状态
将每个事件进行排序,计算时间差来分析出那些会出现等待时间过长的情况
将事件的状态进行标记,最后进行统计分析
资源调度分析举例
多线程程序中,线程之间互相抢占,并目出现一个线程长期占用,导致其他线程长期处于等待状态,造成整个程序性能不高。这种情况一般是锁或互斥量被线程长期占用造成
在视频例子中由于加锁位置不当,导致线程占用资源时间过长,合理的减少加所范围最后使线程能够最大程度的运行起来
锁与等待分析
锁与等待分析基于Linux perf工具的采样数据,对glibc和开源软件(如MySQL、Open MP)的锁与等待函数(包括sleep、usleep、mutex、cond、spinlock、rwlock、semaphore等)进行分析,关联到其归属的进程和调用点,并根据当前已有的优化经验给出优化建议。
HPC场景
OpenMP/MPI分析通过采集系统的PMU事件并配合采集面向OpenMP和MPI应用的关键指标,帮助用户精准获得Parallel region及Barrier-to-Barrier的串行及并行时间、校准的2层微架构指标、指令分布及L3的利用率和内存带宽等信息。
1.OpenMP运行时指标,新增细化指标
2.MPI运行时指标
3.top-down微架构指标
4.平均DRAM带宽
5.指令分布 (Instruction Mix)
6. Hotspots
内存诊断
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
项目、大纲路线、讲解视频,并且后续会持续更新**