使用eBPF追踪Linux内核

最新推荐文章于 2024-05-14 15:30:50 发布

简说Linux内核

最新推荐文章于 2024-05-14 15:30:50 发布

阅读量1.1k

点赞数

文章标签： linux java 运维 Linux内核嵌入式开发

本文链接：https://blog.csdn.net/m0_50662680/article/details/128455483

版权

简介

BPF，及伯克利包过滤器Berkeley Packet Filter，最初构想提出于 1992 年，其目的是为了提供一种过滤包的方法，并且要避免从内核空间到用户空间的无用的数据包复制行为。它最初是由从用户空间注入到内核的一个简单的字节码构成，它在那个位置利用一个校验器进行检查 —— 以避免内核崩溃或者安全问题 —— 并附着到一个套接字上，接着在每个接收到的包上运行。几年后它被移植到 Linux 上，并且应用于一小部分应用程序上（例如，tcpdump）。其简化的语言以及存在于内核中的即时编译器（JIT），使 BPF 成为一个性能卓越的工具。

然后，在 2013 年，Alexei Starovoitov 对 BPF 进行彻底地改造，并增加了新的功能，改善了它的性能。这个新版本被命名为 eBPF （意思是 “extended BPF”），与此同时，将以前的 BPF 变成 cBPF（意思是 “classic” BPF）。新版本出现了如映射和尾调用tail call这样的新特性，并且 JIT 编译器也被重写了。新的语言比 cBPF 更接近于原生机器语言。并且，在内核中创建了新的附着点。

感谢那些新的钩子，eBPF 程序才可以被设计用于各种各样的情形下，其分为两个应用领域。其中一个应用领域是内核跟踪和事件监控。BPF 程序可以被附着到探针（kprobe），而且它与其它跟踪模式相比，有很多的优点（有时也有一些缺点）。

另外一个应用领域是网络编程。除了套接字过滤器外，eBPF 程序还可以附加到 tc（Linux 流量控制工具）的入站或者出站接口上，以一种很高效的方式去执行各种包处理任务。这种使用方式在这个领域开创了一个新的天地。

并且 eBPF 通过使用为 IO Visor 项目开发的技术，使它的性能进一步得到提升：也为 XDP（“eXpress Data Path”）添加了新的钩子，XDP 是不久前添加到内核中的一种新式快速路径。XDP 与 Linux 栈组合，然后使用 BPF ，使包处理的速度更快。

甚至一些项目，如 P4、Open vSwitch，考虑或者开始去接洽使用 BPF。其它的一些，如 CETH、Cilium，则是完全基于它的。BPF 是如此流行，因此，我们可以预计，不久之后，将围绕它有更多工具和项目出现 …

什么是BPF程序：

BPF is a highly flexible and efficient virtual machine-like construct in the Linux kernel allowing to execute bytecode at various hook points in a safe manner.

BPF程序 ----LLVM+Clang----> BPF字节码 ----JIT----> BPF指令集；
BPF架构采用一种新的虚拟机设计，包含支持x86_64, arm64, mips64等架构的指令集，BPF指令集程序可以高效地工作在基于寄存器架构（r0到r10）的CPU上；
Linux内核维护者不断开发hook点，可以在hook点上挂载BPF程序，当hook点对应的事件发生就可以执行BPF程序，BPF程序返回hook点预定义的值，Linux内核再根据返回值执行下一步操作(比如XDP类型的BPF程序挂载在指定的网络接口上，有数据包进入该网络接口，BPF程序对数据包进行解析然后根据协议字段进行判断，如果不符合规则就返回XDP_DROP，Linux内核根据该返回值就会丢弃该数据包)。

BPF工作原理：

内核资料直通车：最新Linux内核源码资料文档+视频资料

学习直通车：Linux内核源码/内存调优/文件系统/进程管理/设备驱动/网络协议栈

BPF关键组件：

BPF Hooks
BPF映射：

BPF程序和用户空间程序通过BPF映射通信；
BPF映射以键/值保存在内核，可以被任何BPF程序访问，用户空间的程序可以通过文件描述符访问BPF映射
BPF映射类型：BPF映射支持多种数据结构，从而实现内核内部数据的组织以及用户态和内核态的通信，比如哈希表、数组、队列等等

BPF映射用途举例：

1)在BPF程序不中断的情况下修改其运行方式，修改映射中BPF程序访问的配置数据或应用数据，例如黑名单规定的IP列表和域名；

2)运行在内核的BPF程序统计进入指定网络接口的数据包信息，并将统计信息保存到BPF映射，用户态程序可以通过BPF映射获取数据包统计信息；

BPF辅助函数(BPF Helper Function)：如其他语言生态会提供丰富的库提供大量的API函数，BPF也包含各种常用的辅助函数，提供操作内核数据和BPF映射的工具类函数；

资料直通车：最新Linux内核源码资料文档+视频资料

内核学习地址：Linux内核源码/内存调优/文件系统/进程管理/设备驱动/网络协议栈

优点：通过定义和维护BPF辅助函数，由BPF辅助函数维护者处理Linux内核版本的迭代更新，对开发者透明，形成稳定的API接口；
BPF辅助函数列表：

我们可以使用BPF对Linux内核进行跟踪，收集我们想要的内核数据，从而对Linux中的程序进行分析和调试。与其它的跟踪技术相比，使用BPF的主要优点是几乎可以访问Linux内核和应用程序的任何信息，同时，BPF对系统性能影响很小，执行效率很高，而且开发人员不需要因为收集数据而修改程序。

本文将介绍保证BPF程序安全的BPF验证器，然后以BPF程序的工具集BCC为例，分享kprobes和tracepoints类型的BPF程序的使用及程序编写示例。

BPF验证器

BPF借助跟踪探针收集信息并进行调试和分析，与其它依赖于重新编译内核的工具相比，BPF程序的安全性更高。重新编译内核引入外部模块的方式，可能会因为程序的错误而产生系统奔溃。BPF程序的验证器会在BPF程序加载到内核之前分析程序，消除这种风险。

BPF验证器执行的第一项检查是对BPF虚拟机加载的代码进行静态分析，目的是确保程序能够按照预期结束。验证器在进行第一项检查时所做工作为：

程序不包含控制循环；
程序不会执行超过内核允许的最大指令数；
程序不包含任何无法到达的指令；
程序不会超出程序界限。

BPF验证器执行的第二项检查是对BPF程序进行预运行，所做工作为：

分析BPF程序执行的每条指令，确保不会执行无效指令；
检查所有内存指针是否可以正确访问和引用；
预运行将程序控制流的执行结果通知验证器，确保BPF程序最终都会执行BPF_EXIT指令。

内核探针 kprobes

内核探针可以跟踪大多数内核函数，并且系统损耗最小。当跟踪的内核函数被调用时，附加到探针的BPF代码将被执行，之后内核将恢复正常模式。

kprobes类BPF程序的优缺点

优点动态跟踪内核，可跟踪的内核函数众多，能够提取内核绝大部分信息。
缺点没有稳定的应用程序二进制接口，可能随着内核版本的演进而更改。

kprobes

kprobe程序允许在执行内核函数之前插入BPF程序。当内核执行到kprobe挂载的内核函数时，先运行BPF程序，BPF程序运行结束后，返回继续开始执行内核函数。下面是一个使用kprobe的bcc程序示例，功能是监控内核函数kfree_skb函数，当此函数触发时，记录触发它的进程pid，进程名字和触发次数，并打印出触发此函数的进程pid，进程名字和触发次数：

#!/usr/bin/python3
# coding=utf-8
from __future__ import print_function
from bcc import BPF
from time import sleep
# define BPF program

bpf_program = """
#include <uapi/linux/ptrace.h>
struct key_t{
	u64 pid;
};
BPF_HASH(counts, struct key_t);
int trace_kfree_skb(struct pt_regs *ctx) {
	u64 zero = 0, *val, pid;
	pid = bpf_get_current_pid_tgid() >> 32;
	struct key_t key  = {};
	key.pid = pid;
    val = counts.lookup_or_try_init(&key, &zero);
    if (val) {
      (*val)++;
    }
    return 0;
}
"""

def pid_to_comm(pid):
    try:
        comm = open("/proc/%s/comm" % pid, "r").read().rstrip()
        return comm
    except IOError:
        return str(pid)

# load BPF

b = BPF(text=bpf_program)
b.attach_kprobe(event="kfree_skb", fn_name="trace_kfree_skb")

# header
print("Tracing kfree_skb... Ctrl-C to end.")
print("%-10s %-12s %-10s" % ("PID", "COMM", "DROP_COUNTS"))

while 1:
	sleep(1)
	for k, v in sorted(b["counts"].items(),key = lambda counts: counts[1].value):
	  	print("%-10d %-12s %-10d" % (k.pid, pid_to_comm(k.pid), v.value))

该bcc程序主要包括两个部分，一部分是python语言，一部分是c语言。python部分主要做的工作是BPF程序的加载和操作BPF程序的map，并进行数据处理。c部分会被llvm编译器编译为BPF字节码，经过BPF验证器验证安全后，加载到内核中执行。python和c中出现的陌生函数可以查下面这两个手册，在此不再赘述：

python部分遇到的陌生函数可以查这个手册：点此跳转

c部分中遇到的陌生函数可以查这个手册：点此跳转

需要说明的是，该BPF程序类型是kprobe，它是在这里进行程序类型定义的：

b.attach_kprobe(event="kfree_skb", fn_name="trace_kfree_skb")

b.attach_kprobe()指定了该BPF程序类型为kprobe；
event="kfree_skb"指定了kprobe挂载的内核函数为kfree_skb；
fn_name="trace_kfree_skb"指定了当检测到内核函数kfree_skb时，执行程序中的trace_kfree_skb函数；

BPF程序的第一个参数总为ctx，该参数称为上下文，提供了访问内核正在处理的信息，依赖于正在运行的BPF程序的类型。CPU将内核正在执行任务的不同信息保存在寄存器中，借助内核提供的宏可以访问这些寄存器，如PT_REGS_RC。

程序运行结果如下：

kretprobes

相比于内核探针kprobe程序，kretprobe程序是在内核函数有返回值时插入BPF程序。当内核执行到kretprobe挂载的内核函数时，先执行内核函数，当内核函数返回时执行BPF程序，运行结束后返回。

以上面的BPF程序为例，若要使用kretprobe，可以这样修改：

b.attach_kretprobe(event="kfree_skb", fn_name="trace_kfree_skb")

b.attach_kretprobe()指定了该BPF程序类型为kretprobe，kretprobe类型的BPF程序将在跟踪的内核函数有返回值时执行BPF程序；
event="kfree_skb"指定了kretprobe挂载的内核函数为kfree_skb；
fn_name="trace_kfree_skb"指定了当内核函数kfree_skb有返回值时，执行程序中的trace_kfree_skb函数；

内核静态跟踪点 tracepoint

tracepoint是内核静态跟踪点，它与kprobe类程序的主要区别在于tracepoint由内核开发人员在内核中编写和修改。

tracepoint 程序的优缺点

优点跟踪点是静态的，ABI更稳定，不随内核版本的变化而致不可用。
缺点跟踪点是内核人员添加的，不会全面涵盖内核的所有子系统。

tracepoint 可用跟踪点

系统中所有的跟踪点都定义在
/sys/kernel/debug/traceing/events目录中：

使用命令perf list 也可以列出可使用的tracepoint点：

对于bcc程序来说，以监控kfree_skb为例，tracepoint程序可以这样写：

b.attach_tracepoint(tp="skb:kfree_skb", fn_name="trace_kfree_skb")

bcc遵循tracepoint命名约定，首先是指定要跟踪的子系统，这里是“skb:”，然后是子系统中的跟踪点“kfree_skb”：

总结

本文主要介绍了保证BPF程序安全的BPF验证器，然后以BPF程序的工具集BCC为例，分享了kprobes和tracepoints类型的BPF程序的使用及程序编写示例。本文分享的是内核跟踪，那么用户空间程序该如何跟踪呢，这将在后面的文章中逐步分享，感谢阅读。

简说Linux内核

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用eBPF追踪Linux内核

BPF，及伯克利包过滤器Berkeley Packet Filter，最初构想提出于 1992 年，其目的是为了提供一种过滤包的方法，并且要避免从内核空间到用户空间的无用的数据包复制行为。它最初是由从用户空间注入到内核的一个简单的字节码构成，它在那个位置利用一个校验器进行检查 —— 以避免内核崩溃或者安全问题 —— 并附着到一个套接字上，接着在每个接收到的包上运行。几年后它被移植到 Linux 上，并且应用于一小部分应用程序上（例如，tcpdump）。
复制链接

扫一扫