在工作中经常用到各种跟踪调试工具, strace, ltrace, kprobes, tracepoints, uprobes, ftrace, perf, 和 eBPF。他们之间到底啥关系?本文从总体上进行概述,如果有错误欢迎指正。
1.1.1 系统跟踪
系统跟踪可以分为数据源、收集数据机制和跟踪前端(收集和分析数据的交互)。
数据源可以将其分为probes和tracepoints,对应的源有:
probes :kprobes/uprobes
tracepoints :USDT/kernel tracepoints / lttng-ust
probe可以在运行时候修改程序来使能跟踪。tracepoint是编译到程序里面的,当使用的时候可以使能或激活,使用tracepoint在没有激活的时候是不会有任何损耗的,另外激活状态下也是很小的开销。
1.1.1.1 kprobes
kprobes是linux内核的debug机制,也可以用来监视生产系统的事件。也可以用来寻找性能瓶颈,指定事件,跟踪问题。
可以使用Gregg 的
https://github.com/kernel-z/perf-tools/blob/master/kernel/kprobe
跟踪系统中文件被打印情况,可以使用如下:
./kprobe 'p:myopen do_sys_open filename=+0(%si):string'
可以打印系统中系统调用open。
kprobes适用场景,1.跟踪系统调用,其有对应的内核函数do_sys_open;2.在知道哪些内核函数被调用的情况下,定位网络协议栈或文件IO性能问题;3.内核开发者用于定位内核问题。
1.1.1.2 uprobes
uprobes和kprobes 类似,主要是检测用户态函数,例如malloc。
具体参考:
http://www.brendangregg.com/blog/2015-06-28/linux-ftrace-uprobe.html
1.1.1.3 USDT/dtrace probes
USDT 为user-mode statically defined traces,就是dtrace probe.
如果程序编译了dtrace probes,就可以使用工具例如eBPF/systemtap来消耗它。当然很多程序例如python默认并没有编译dtrace probes,如果编译进去了,那么可以使用来跟踪python函数调用。
1.1.1.4 tracepoints
tracepoints也是在内核中。相比kprobes,变动比较少。
1.1.1.5 lttng-ust
lttng-ust是跟踪系统,可以将探针编译到程序中,所有跟踪事件发生在用户态。因为不需要上下文切换,所以很快。
1.1.2 收集数据机制
为了理解收集和分析跟踪数据,理解从内核中取出数据到你的手上就非常重要。观察内核自带的几个部分。
1.1.2.1 ftrace
ftrace是比较难以直接使用。很多数据位于/sys/kernel/debug/tracing中。要跟ftrace 交互,可以读写其中的文件。
1.1.2.2 perf_events
使用系统调用perf_event_open从内核中获取数据。内核会将事件写到用户态内存中,可以被直接读取。
1.1.2.3 eBPF
编写eBPF编程(通常使用C语言,或者使用工具来产生该程序),然后让内核将probe附加到kprobe/uprobe/tracepoint/dtrace的探针上。那么程序会将数据写到eBPF缓存中,就得到的精确的数据。
eBFP在最新的内核版本上可用。
1.1.1 tracepoint
最后来看下tracepoint。
kernel中有trace_XX形式的函数,这些是kernel的tracepoint,定义在include/linux/tracepoint.h中。
trace_要起作用,需要调用register_trace_##name,给他关联一个probe函数,当调用trace_时就执行probe函数
内核中的每个tracepoint提供一个钩子来调用probe函数。一个tracepoint可以打开或关闭。打开时,probe函数关联到tracepoint;关闭时,probe函数不关联到tracepoint。tracepoint关闭时对kernel产生的影响很小,只是增加了极少的时间开销(一个分支条件判断),极小的空间开销(一条函数调用语句和几个数据结构)。当一个tracepoint打开时,用户提供的probe函数在每次这个tracepoint执行是都会被调用。
1.1.2 关于跟踪器选择
如果你当前或未来计算机运行内核大于4.9,那么就用eBPF,不过在老的版本中eBPF可能帮不到你,那么ftrace 就值得投入分析。
perf trace比较简单,损耗比较低可以直接上手。
使用kprobes也是一个不错的主意。
可以使用perf_events(又名perf)来做CPU的profiling,然后可用火焰图来描述。当然,perf还可以做很多事情,这里先其做CPU profiling。
性能大师Gregg有如下建议:
如果是性能工程师,就需要选择一个跟踪器如SystemTap,LTTng或sysdig。LTTng相比安全一点,SystemTap功能强大。sysdig有待增加kprobe或tracepoints。
在工作中可以尽可能的使用perf和ftrace,这已被集成到了eBPF中,然后在使用SystemTap或LTTng来补充。
1.1.3 参考
http://netsplit.com/tracing-on-linux
http://www.brendangregg.com/blog/2015-07-08/choosing-a-linux-tracer.html
LTT: https://en.wikipedia.org/wiki/Linux_Trace_Toolkit
Linux tracing systems & how they fit together