DPDK之fib库源码分析

最新推荐文章于 2022-08-10 15:38:41 发布

weixin_37559574_飞过海

最新推荐文章于 2022-08-10 15:38:41 发布

阅读量911

点赞数

分类专栏： DPDK 文章标签：后端 c语言

本文链接：https://blog.csdn.net/weixin_37559574/article/details/117369753

版权

DPDK 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细分析了DPDK fib库的IPv4部分，包括Fib数据结构、创建、添加、删除和查找功能。文章以实例展示了路由表和转发表的构建过程，探讨了trie树和dir_24_8算法如何结合以提高查找效率，同时阐述了内存管理和查找逻辑，揭示了路由信息如何在内存中存储和查找。

摘要由CSDN通过智能技术生成

前言

文档分析的是DPDK 20.11版本，暂时只分析fib库ipv4部分的代码逻辑，ipv6部分后续分析；

Fib库主要有create、add、del、free、lookup等功能，下面以这几个功能为入口来分析fib库的主要逻辑；

读者需要对dir_24_8算法、rib表、fib表等有一定的了解，本文只对代码的主要逻辑进行分析，旨在帮助读者在阅读后可以更好的分析理解源码，更详细的代码逻辑请参看源码；

1. Fib数据结构说明

Fib数据结构最大的特点就是trie树和dir_24_8算法（数据结构）的结合，trie树主要是用来管理rib表，dir_24_8数据结构主要是用来管理fib表，rib表可以认为是路由表，主要用来存储路由信息，fib表是转发表，也存储路由信息，但是主要功能是用来做路由查找完成转发信息（下一跳）的获取，其中的dir_24_8数据结构，为空间换时间的数据结构类型，即查找型数据结构，大部分情况只需1次查找，最多只需2次查找，比查找trie树要快，故trie树和dir_24_8的结合非常巧妙；

可能有个疑惑就是为啥不只使用dir_24_8数据结构，因为它也可以存储路由信息，并完成快速查找，其实dpdk有个lpm（最长前缀匹配）库，就是这么做的，可以先看下面的代码分析，看完分析可能就知道一些原因了；

2. Create功能

对应函数：rte_fib_create

2.1 rib表的创建

首先是调用rte_rib_create函数创建rib表，其中最主要的数据结构是struct rte_rib和struct rte_rib_node，如下：

struct rte_rib {
	char		name[RTE_RIB_NAMESIZE];
	struct rte_rib_node	*tree;
	struct rte_mempool	*node_pool;
	uint32_t		cur_nodes;
	uint32_t		cur_routes;
	uint32_t		max_nodes;
};

先简单介绍一下各个变量的意思：

name：rib表的名字

tree：指向trie树，trie树是由rte_rib_node类型的节点组成的

node_pool：trie树的节点池，即从节点池申请树的节点，节点存储了路由信息

cur_nodes：当前trie树的节点数

cur_routes：当前trie树存储的路由数（节点和路由数并不是一直相等的，具体见下面的分析）

max_nodes：trie树允许挂接的最大节点数（通过指定节点池大小进行数量限制）

struct rte_rib_node {
	struct rte_rib_node	*left;
	struct rte_rib_node	*right;
	struct rte_rib_node	*parent;
	uint32_t	ip;
	uint8_t		depth;
	uint8_t		flag;
	uint64_t	nh;
	__extension__ uint64_t	ext[0];
};

left：该节点的左孩子节点

right：该节点的右孩子节点

parent：该节点的父节点

ip：该节点存储的路由ip

depth：该节点存储的路由ip子网掩码长度（1-32）

flag：该节点是否可用标志（后续会详细说明用途）

nh：该节点存储的路由下一跳

ext：扩展存储，用于存储用户自定义的数据

接下来就是对这些变量进行填充了，比较简单，具体可参看代码，其中创建好rib表后会把该表挂接到rte_rib_tailq链表，这也是dpdk惯用的套路，把创建的各个数据结构都挂接到全局的链表变量上，方便管理，如图、树等；

rte_rib_create函数执行完毕后的数据结构如下：

2.2 fib表的创建

下面开始创建fib表，同样先看一下fib表相关的数据结构：

struct rte_fib {
	char			name[RTE_FIB_NAMESIZE];
	enum rte_fib_type	type;	/**< Type of FIB struct */
	struct rte_rib		*rib;	/**< RIB helper datastruct */
	void			*dp;	/**< pointer to the dataplane struct*/
	rte_fib_lookup_fn_t	lookup;	/**< fib lookup function */
	rte_fib_modify_fn_t	modify; /**< modify fib datastruct */
	uint64_t		def_nh;
};

name：fib表的名字

type：fib表的类型，共两种，一种是fib表和rib表（trie树结构）共用，一种就是前面说的trie和dir_24_8结合

rib：指向rib表

dp：数据平台，指向fib表的数据结构，根据type有两种数据结构可选

lookup：函数指针，指向路由查找函数

modify：函数指针，指向路由修改（add和del）函数

def_nh：默认下一跳（默认路由）

同样开始对这些变量进行填充，具体可参看代码，这里重点分析一下dp的初始化，即init_dataplane函数，可以看到该函数会判断指定的type类型，如果为RTE_FIB_DUMMY类型，则fib表即是rib表，lookup和modify函数（该函数具体可参看后续的分析）指针均为trie树的操作函数，如果为RTE_FIB_DIR24_8类型，则表示使用dir_24_8数据结构作为fib表的存储结构，该结构的创建在函数dir24_8_create里，同样先看一下该数据结构struct dir24_8_tbl：

struct dir24_8_tbl {
	uint32_t	number_tbl8s;	/**< Total number of tbl8s */
	uint32_t	rsvd_tbl8s;	/**< Number of reserved tbl8s */
	uint32_t	cur_tbl8s;	/**< Current number of tbl8s */
	enum rte_fib_dir24_8_nh_sz	nh_sz;	/**< Size of nexthop entry */
	uint64_t	def_nh;		/**< Default next hop */
	uint64_t	*tbl8;		/**< tbl8 table. */
	uint64_t	*tbl8_idxes;	/**< bitmap containing free tbl8 idxes*/
	/* tbl24 table. */
	__extension__ uint64_t	tbl24[0] __rte_cache_aligned;
};

number_tbl8s：tbl8表可申请（创建）的总数

rsvd_tbl8s：预留tbl8表数，它的作用主要是用于判断tbl8表使用数量是否达到上限number_tbl8s的数量

cur_tbl8s：当前在用的tbl8表数量

nh_sz：下一跳变量的内存大小，有1、2、4、8B（1 << nh_sz）可选

def_nh：默认下一跳

tbl8：指向tbl8表

tbl8_idxes：bit位图，用于指示当前tbl8表的使用情况，每个bit位对应一张tbl8表，为1表示在用，为0表示空闲

tbl24：0长度数组，用于指向申请的tbl24表的内存

开始对以上变量进行填充，其中number_tbl8s取BITMAP_SLAB_BIT_SIZE（1<<6==64）的整数倍，因为tbl8_idxes指针指向类型为64位，所以以64为单位，tbl8表和tbl24表的内存结构都是连续地址内存空间，原因当然是dir_24_8算法决定的（以ip值为数组下标），这里注意一下，tbl8和tbl24表其实都是数组，而且数组内容是下一跳，所以每张表需要申请的内存大小是表下一跳数（tbl8：2<<8，tbl24：2<<24）和下一跳大小的乘积，tbl24表只有一张，tbl8表比较特殊，因为是二级表（类似页表），理论上应该有2<<24张表，但是由于大部分路由ip子网长度小于24（这就是dir_24_8算法的来源），并且为了节省内存空间，并没有创建这么多tbl8表，而是作为可配的形式指定；

同样fib表创建完成后也会挂接到全局链表rte_fib_tailq，rte_fib_create函数完成后数据结构（RTE_FIB_DIR24_8类型）如下：

后续分析主要是基于RTE_FIB_DIR24_8类型的fib表，因为RTE_FIB_DUMMY类型的fib表操作逻辑包含在了RTE_FIB_DIR24_8类型里，不再单独分析；

以上是路由表、转发表的创建流程，请注意这些数据结构，下面的分析会时不时用到这些结构，这也是理解表项操作复杂逻辑的基础。

3. Add功能

对应函数：modify函数指针

add功能主要是对路由信息进行添加，在创建fib表的时候对modify函数指针进行了初始化，该指针指向了dir24_8_modify函数，此函数有个op参数，用于指示add还是del操作，此处先分析RTE_FIB_ADD操作；

根据前面分析的数据结构大致可以看出，表的add操作应该是把路由信息（node）挂接到trie树上，并存储到fib表里，本文为了更好的解释add操作，会根据本人当时的分析思路来讲，这也符合读者阅读代码时的习惯，并且先分析add操作的好处是可以从空表开始用实际例子一点点的构建，慢慢的把trie树（rib表）和fib表构建出来，否则只会陷入混乱，无从下手；

说明：为了方便讲述，add路由顺序和下一跳的值对应节点标号，如add第一条路由对应第一个节点，并且下一跳为100；

3.1 Add第1条路由

首先调用rte_rib_lookup_exact在树中对要添加的路由信息进行搜索，看一下是否已经被添加到rib表里了，此时不用知道树的具体组织形式，因为是空表（还记得吧，tree = NULL），所以肯定搜索不到，不过根据此函数和前面的数据结构分析，大致可以看出树的每个节点有左右两个孩子节点和一个父节点，每个节点存储了路由ip、depth、flag等信息，在搜索过程中会对搜索路径上的每个可用节点进行路由信息匹配，以此来判断是否找到了相同的路由信息，搜索路径是怎么算出来的呢，get_nxt_node函数给出了答案：

static inline struct rte_rib_node *
get_nxt_node(struct rte_rib_node *node, uint32_t ip)
{
	return (ip & (1 << (31 - node->depth))) ? node->right : node->left;
}

即根据当前节点的depth长度对应的搜索ip的下一位bit位取值来决定，取值1表示搜索该节点的右子节点，0表示搜索左子节点，节点是否可用是通过flag判断的，关于节点为什么有这个标志见后续分析，路由匹配当然是ip和depth结合判断；好了，先分析到这里，当前可能整个表项的结构还不是很清楚，但是大致可以画出树的蛛丝马迹来：

节点B和E有共同的部分A，共同部分是指A的ip（A的ip掩码A的depth），A为B和E的父节点，B和E分别为A的左右孩子节点；
节点B和E的ip在A的depth之后的一个bit位肯定不同，且分别为0和1；
树的同一分支的层级越深对应的depth越大，如节点D > B > A
节点C和D有共同的部分A和B，而且最长的共同部分是它们的父节点B，同样节点B、C、D、E、F有共同的部分A；

如前所述rte_rib_lookup_exact返回NULL，接着往下分析，遇到了：

if (depth > 24) {
			tmp = rte_rib_get_nxt(rib, ip, 24, NULL,
				RTE_RIB_GET_NXT_COVER);
			if ((tmp == NULL) &&
				(dp->rsvd_tbl8s >= dp->number_tbl8s))
				return -ENOSPC;

		}

大致可以看出这个是针对tbl8表项的，先略过，弄清楚了tbl24的操作，再回过头来看它应该会容易很多；

接下来就是真正的add操作了，调用rte_rib_insert函数，把路由信息插入到rib表（trie树），同样该函数也会先在rib表中搜索一下有没有相同路由信息的节点，如果有则直接退出，否则申请一个新的节点，把路由信息等填充到该节点，因为此时trie树是空的，所以该节点是树的第一个节点，它的父节点、左右孩子节点应该均为NULL，看一下代码：

    new_node->left = NULL;
	new_node->right = NULL;
	new_node->parent = NULL;
	new_node->ip = ip;
	new_node->depth = depth;
	new_node->flag = RTE_RIB_VALID_NODE;

	/* traverse down the tree to find matching node or closest matching */
	while (1) {
		/* insert as the last node in the branch */
		if (*tmp == NULL) {
			*tmp = new_node;
			new_node->parent = prev;
			++rib->cur_routes;
			return *tmp;
		}

会进入到该分支，prev为NULL，和猜想的一样，此时该节点成为了树的第一个节点，如下：

继续往下看代码:

        rte_rib_set_nh(node, next_hop);
		parent = rte_rib_lookup_parent(node);
		if (parent != NULL) {
			rte_rib_get_nh(parent, &par_nh);
			if (par_nh == next_hop)
				return 0;
		}

填充节点里的下一跳信息，然后寻找该节点的父节点，如果父节点和要设置的下一跳相同则直接退出，因为目前节点还没有父节点，可以暂时不用考虑这个，至于为什么这么做，接着往下分析代码看看能不能找到原因，此时parent为NULL，接着运行下面的代码：

        ret = modify_fib(dp, rib, ip, depth, next_hop);
		if (ret != 0) {
			rte_rib_remove(rib, ip, depth);
			return ret;
		}

看名字应该是修改fib表了，根据前面的猜想应该是把路由信息添加到fib表，进入到该函数看一下：

首先调用rte_rib_get_nxt函数，看名字是获取下一个节点，具体还是进入该函数看一下：

逻辑比较复杂，如果只看代码就会陷入其中，所以还是按照前面说的，用实际的例子一点点的分析，函数会进入下面的分支：

if (last == NULL) {
		tmp = rib->tree;
		while ((tmp) && (tmp->depth < depth))
			tmp = get_nxt_node(tmp, ip);
	}

因为现在只有一个节点，并且要查找的路由信息就是刚刚挂接到树上的节点，所以tmp指向该节点，然后进入：

while (tmp) {
		if (is_valid_node(tmp) &&
				(is_covered(tmp->ip, ip, depth) &&
				(tmp->depth > depth))) {
			prev = tmp;
			if (flag == RTE_RIB_GET_NXT_COVER)
				return prev;
		}
		tmp = (tmp->left) ? tmp->left : tmp->right;
	}
	return prev;

最终会返回该节点的左孩子节点，当然此时是NULL，这里也可以看出优先返回左孩子节点，为什么呢？这里先记着这个疑问，后面慢慢找答案；

费了半天劲，结果rte_rib_get_nxt返回的是NULL，所以modify_fib函数会进入下面的分支：

else {
			redge = ip + (uint32_t)(1ULL << (32 - depth));
			if (ledge == redge)
				break;
			ret = install_to_fib(dp, ledge, redge,
				next_hop);
			if (ret != 0)
				return ret;
		}

前面有个ledge，这里有个redge，变量一般都是见名知义（给变量起个好名字的重要性！！！）的，这两个变量应该是左右边界的意思，有了这个概念再来看一下代码，ledge = ip，左边界是ip的值，右边界是ip的值（掩码末位）加1，如果两者一样则break掉，说明边界之间有ip值才可以add到fib表，现在才真正到了插入fib表的函数install_to_fib，进入该函数看一下：

依然无比复杂，乍一看毫无头绪，还是用法宝一点点分析，先捋一下当前的场景，rib表已完成add一条路由信息，trie树有了第一个节点，但fib表还是空的，所以有了前面rib表的分析经验，从空表开始分析应该是最简单的：

len = ((ledge == 0) && (redge == 0)) ? 1 << 24 :
		((redge & DIR24_8_TBL24_MASK) - ROUNDUP(ledge, 24)) >> 8;

对于左右边界都为0的情况比较特殊先不考虑，而且先分析tbl24表，所以此时可以找个depth在1-24之间的例子，比如路由ip：192.168.0.0/16，下一跳：100，这里先说一下宏ROUNDUP的意思，主要是向上圆整ledge为256的整数倍，换个说法就是如果ip的最后8bit位不为0则向上（第24bit位）进一位，大致可以看出是tbl8要用到的，这里先忽略，目前ledge=192.168.0.0，redge=192.169.0.0，len就可以计算出来了：0.0.1.0，转换成整数就是256，可以看出这256个ip值是192.168.0.0-192.168.255.0，接着分析来验证一下：

根据当前的例子，会执行：

write_to_fib(get_tbl24_p(dp, ROUNDUP(ledge, 24), dp->nh_sz),
			next_hop << 1, dp->nh_sz, len);

先看get_tbl24_p函数，看名字是获取tbl24表的地址：

static inline void *
get_tbl24_p(struct dir24_8_tbl *dp, uint32_t ip, uint8_t nh_sz)
{
	return (void *)&((uint8_t *)dp->tbl24)[(ip &
		DIR24_8_TBL24_MASK) >> (8 - nh_sz)];
}

首先说明一下，为了方便理解，做一下变换（注：为了保证变换后值是相等的，右移的位没有消失，要做保留，左移时还会恢复，后面做类似的变换时都遵守这个原则）：x >> (8 - nh_sz)相当于(x >> 8) << nh_sz，相当于(x >> 8) * (1 << nh_sz)

结合前面分析的tbl24的数据结构可知，ip作为数组下标，表示数组中第uint32_t（ip）（ip转换成整数）个下一跳的位置（如上图），注意是取ip的前24bit位，所以掩码后右移了8，为了方便这里把数组指针变量dp->tbl24强制转换成了uint8_t类型，但是需要考虑到下一跳的大小，所以再乘以下一跳的大小，这样就定位到了对应的下一跳在数组里的位置，取到了下一跳的值，然后取地址&，还有个地方需要注意，给get_tbl24_p函数传参ROUNDUP(ledge, 24)，而不是ledge，可以假设ledge的depth不大于24的情况，则ROUNDUP(ledge, 24)和ledge相等，假设ledge的depth大于24并且最后8bit位不为0，则ROUNDUP(ledge, 24) > ledge，针对后面这种情况，可以回过头看看len的计算公式和进入改分支的条件：(ledge >> 8) != (redge >> 8)，说明redge=ledge+1往24bit进了1位，所以redge & DIR24_8_TBL24_MASK和ROUNDUP(ledge, 24)是相等的，此时len为0，write_to_fib函数就不会往tbl24表插入路由了（避免了tbl8的路由插入tbl24表），所以这里传参ROUNDUP(ledge, 24)和ledge是一样的（但是为啥不直接写ledge？暂时没想明白）；

获取到tbl24的写入起始地址、写入内容（下一跳）和个数（len），就可以开始往表里add路由信息了，write_to_fib函数比较简单，大致是从ledge（192.168.0.0）对应的地址开始写入256个下一跳，所以最终写入了路由信息范围为192.168.0.0-192.168.255.0（fib表的下标对应路由ip地址，fib表的内容为下一跳，那么depth在哪？答案就是dir_24_8的算法的特点：扩展depth到24，具体不再描述）；

有个地方也需要注意一下，下一跳在插入fib表时左移了一位，说明fib表里的下一跳的第一个bit位不是下一跳的值，应该有其他用途，后面看看能不能得到答案，而且在dir24_8_modify函数里有个语句：

if (next_hop > get_max_nh(dp->nh_sz))
		return -EINVAL;

static inline uint64_t
get_max_nh(uint8_t nh_sz)
{
	return ((1ULL << (bits_in_nh(nh_sz) - 1)) - 1);
}

也说明下一跳的值的范围少一个bit位；

终于第一条路由成功的add到了rib和fib表里，现在两个表格情况如下：

3.2 Add第2条路由

接下来插入第二条路由：192.168.2.0/24 200

基于前面的代码分析，后面主要分析一下前面例子没有涉及的地方，同样先进入dir24_8_modify函数，其中在rte_rib_insert函数里开始进入不一样的逻辑，此时会进入如下代码逻辑：

/*
		 * Intermediate node found.
		 * Previous rte_rib_lookup_exact() returned NULL
		 * but node with proper search criteria is found.
		 * Validate intermediate node and return.
		 */
		if ((ip == (*tmp)->ip) && (depth == (*tmp)->depth)) {
			node_free(rib, new_node);
			(*tmp)->flag |= RTE_RIB_VALID_NODE;
			++rib->cur_routes;
			return *tmp;
		}
		d = (*tmp)->depth;
		if ((d >= depth) || !is_covered(ip, (*tmp)->ip, d))
			break;
		prev = *tmp;
		tmp = (ip & (1 << (31 - d))) ? &(*tmp)->right : &(*tmp)->left;

如果找到了与目标路由信息一样的不可用节点，则把该节点的标志置为可用即可，无需再执行插入节点的操作，从这里可以看出节点不可用时也可以存在于树中，只是把标志位置为不可用即可，路由信息保留，这样做的好处是提高了效率；

注意tmp是个二级指针，此处主要用来操作节点的左右孩子指针的，最后一行其实是get_nxt_node函数，前面已经分析过，就是继续寻找下一个节点，最终会发现找不到满足条件的节点，进入：

/* traverse down the tree to find matching node or closest matching */
	while (1) {
		/* insert as the last node in the branch */
		if (*tmp == NULL) {
			*tmp = new_node;
			new_node->parent = prev;
			++rib->cur_routes;
			return *tmp;
		}

这个就是第一个节点的逻辑了，不再分析，接下来就进入下面的逻辑，这个也是前面留下的疑问：

rte_rib_set_nh(node, next_hop);
		parent = rte_rib_lookup_parent(node);
		if (parent != NULL) {
			rte_rib_get_nh(parent, &par_nh);
			if (par_nh == next_hop)
				return 0;
		}

此时应该可以得到答案了，先看看最终的结果，如下：

如果第二个的节点的下一跳和父节点一致，即也是100的话，就直接退出，不再填充fib表，因为本来192.168.2.0的下一跳就是100，所以此处是属于代码优化，提高性能（同时也可以回答前面提到的“为啥不只用dir_24_8数据结构”的疑问了，结合trie树的好处还有很多，后面分析慢慢体会吧），这里也可以看出子节点在fib表里是父节点的子集；

3.3 Add第3条路由

然后插入第三条路由：192.168.0.0/17 300

依然是在rte_rib_insert函数里开始进入不一样的逻辑，在if ((d >= depth)：

/*
		 * Intermediate node found.
		 * Previous rte_rib_lookup_exact() returned NULL
		 * but node with proper search criteria is found.
		 * Validate intermediate node and return.
		 */
		if ((ip == (*tmp)->ip) && (depth == (*tmp)->depth)) {
			node_free(rib, new_node);
			(*tmp)->flag |= RTE_RIB_VALID_NODE;
			++rib->cur_routes;
			return *tmp;
		}
		d = (*tmp)->depth;
		if ((d >= depth) || !is_covered(ip, (*tmp)->ip, d))
			break;
		prev = *tmp;
		tmp = (ip & (1 << (31 - d))) ? &(*tmp)->right : &(*tmp)->left;

当寻找到第2个节点时会发现节点的depth（24）比目标depth（17）要大，break，进入下面的流程：

/* closest node found, new_node should be inserted in the middle */
	common_depth = RTE_MIN(depth, (*tmp)->depth);
	common_prefix = ip ^ (*tmp)->ip;
	d = __builtin_clz(common_prefix);

	common_depth = RTE_MIN(d, common_depth);
	common_prefix = ip & rte_rib_depth_to_mask(common_depth);
	if ((common_prefix == ip) && (common_depth == depth)) {
		/* insert as a parent */
		if ((*tmp)->ip & (1 << (31 - depth)))
			new_node->right = *tmp;
		else
			new_node->left = *tmp;
		new_node->parent = (*tmp)->parent;
		(*tmp)->parent = new_node;
		*tmp = new_node;
	} else {

前面几行主要功能是找当前节点（第二个节点）和目标路由信息之间最长的共同部分，前面分析过共同部分的含义，这里还有个共同depth（两者ip共同部分的长度）的概念，根据当前的例子，common_depth = 17，common_prefix = 192.168.0.0，并且满足if的条件，再次联想一下前面对树的分析，当前节点和目标路由有共同部分，而且共同部分就是目标路由，所以目标路由就是当前节点的父节点，正如代码里的注释所说：/* insert as a parent */，如下：

接下来插入fib表时也会在modify_fib函数里的rte_rib_get_nxt函数里出现新的逻辑，如下：

while (tmp) {
		if (is_valid_node(tmp) &&
				(is_covered(tmp->ip, ip, depth) &&
				(tmp->depth > depth))) {
			prev = tmp;
			if (flag == RTE_RIB_GET_NXT_COVER)
				return prev;
		}
		tmp = (tmp->left) ? tmp->left : tmp->right;
	}

tmp为第2个节点时满足if条件，返回第2个节点(return prev;)，进入：

if (tmp != NULL) {
			rte_rib_get_depth(tmp, &tmp_depth);
			if (tmp_depth == depth)
				continue;
			rte_rib_get_ip(tmp, &tmp_ip);
			redge = tmp_ip & rte_rib_depth_to_mask(tmp_depth);
			if (ledge == redge) {
				ledge = redge +
					(uint32_t)(1ULL << (32 - tmp_depth));
				continue;
			}
			ret = install_to_fib(dp, ledge, redge,
				next_hop);
			if (ret != 0)
				return ret;
			ledge = redge +
				(uint32_t)(1ULL << (32 - tmp_depth));
		} else {

可以看到以第2个节点的ip作为右边界，原来rte_rib_get_nxt是为了找右边界，所以优先返回左孩子节点的原因就是左孩子是离自己最近的节点(第3个节点的左孩子为第2个节点)，可以作为第一个右边界；

后续插入fib表的逻辑就和之前的一样的，结果如下：

当然，还没完，看下面：

ledge = redge +
				(uint32_t)(1ULL << (32 - tmp_depth));

在这次插入fib表完成后，ledge重新赋值了，为redge+1，然后执行do while循环再次进入rte_rib_get_nxt函数寻找新的右边界，这次rte_rib_get_nxt函数也有了新的逻辑了，如下：

} else {
		tmp = last;
		while ((tmp->parent != NULL) && (is_right_node(tmp) ||
				(tmp->parent->right == NULL))) {
			tmp = tmp->parent;
			if (is_valid_node(tmp) &&
					(is_covered(tmp->ip, ip, depth) &&
					(tmp->depth > depth)))
				return tmp;
		}
		tmp = (tmp->parent) ? tmp->parent->right : NULL;
	}

此时tmp为第2个节点，然后按照此段代码逻辑分析，最终tmp会成为NULL，后续就一样了，先把最终结果展示出来再来看看这段代码的真实用意：

可以看到第3个节点在fib表里的位置，首先是其父节点（第1个节点）的子集，还要避开其左右两个子节点（左子节点为第2个节点，右子节点为NULL，读者可以接着加入子右节点看一下），那么子节点的子节点需要避开吗？这个已经避开了，因为子节点的子节点是子节点的子集，避开了子节点就避开了它们，所以这段代码就是找节点的右节点以避开；

到目前为止，基本分析了rib、fib表的大致插入流程，但是还缺少一些情况，如tbl8表的插入、节点flag怎么变为不可用的、右节点的插入等，为了覆盖到这些情况，接着用实际例子来进行分析；

3.4 Add第4条路由

接下来插入第四条路由：192.168.0.8/29 400

这个depth超过了24，所以会插入tbl8表；

依然分析和前面不一样的地方，如下：

if (depth > 24) {
			tmp = rte_rib_get_nxt(rib, ip, 24, NULL,
				RTE_RIB_GET_NXT_COVER);
			if ((tmp == NULL) &&
				(dp->rsvd_tbl8s >= dp->number_tbl8s))
				return -ENOSPC;

		}

再看一下rte_rib_get_nxt函数里的语句：

if (is_valid_node(tmp) &&
					(is_covered(tmp->ip, ip, depth) &&
					(tmp->depth > depth)))

rte_rib_get_nxt函数前面已经分析过，在前面的用途主要是用来获取fib表的右边界的，现在再来看一下这个函数，会发现在返回非空时都是返回的目标路由的子集或者子节点，这里传入的depth是24，如果返回非空，则返回的节点满足depth > 24，并且返回节点的ip和目标ip至少前24bit位相同，这说明什么呢？想一下前面分析的tbl24表，ip的前24bit位一样，则他们在tbl24表里的位置是一样的，如果了解了dir_24_8数据结构或者lpm库，则会知道tbl24表存储的路由ip如果超过了24bit，则tbl24表里存储的就不是下一跳，而是tbl8表的下标，也就是说目标ip和返回的节点ip是在同一个tbl8表里的，再回过头来看看这段代码的意思，如果返回NULL，需要判断rsvd_tbl8s和number_tbl8s的大小关系，返回NULL代表着目标ip还没有在当前的tbl24表里找到对应的tbl8表，如果把该目标ip插入fib表的话需要申请一个新的tbl8表，再看一下后面的一段代码：

if ((depth > 24) && (tmp == NULL))
			dp->rsvd_tbl8s++;

需要新建tbl8表的话rsvd_tbl8s就增加1，可以看出来rsvd_tbl8s变量记录了当前fib表里的tbl8的数量，所以如果rsvd_tbl8s>=number_tbl8s时说明tbl8表用完了，不能再新建了，此时需要丢弃该目标路由，返回ENOSPC错误；

然后进入rte_rib_insert函数，出现新的逻辑：

} else {
		/* create intermediate node */
		common_node = node_alloc(rib);
		if (common_node == NULL) {
			node_free(rib, new_node);
			rte_errno = ENOMEM;
			return NULL;
		}
		common_node->ip = common_prefix;
		common_node->depth = common_depth;
		common_node->flag = 0;
		common_node->parent = (*tmp)->parent;
		new_node->parent = common_node;
		(*tmp)->parent = common_node;
		if ((new_node->ip & (1 << (31 - common_depth))) == 0) {
			common_node->left = new_node;
			common_node->right = *tmp;
		} else {
			common_node->left = *tmp;
			common_node->right = new_node;
		}
		*tmp = common_node;
	}

当前tmp为第2个节点（192.168.2.0/24 200），目标路由：192.168.0.8/29 400，他们两个的共同部分为192.168.0.0/22，即common_node->ip = 192.168.0.0，common_node->depth = 22，以此为一个新的路由信息并申请节点common_node，目标路由节点和第2个节点分别为它的左右孩子节点，而原来的第2个节点的父节点成为了common_node的父节点，相当于common_node节点插在了中间：/* create intermediate node */，结果如下：

注意common_node节点的flag标志位，设置为了不可用，因为它是凭空产生的一个路由信息，所以为不可用很合理，这就是不可用的来源，那么怎么能变成可用的呢，当然是add一条一模一样的路由信息了，对应的逻辑如下：

/*
		 * Intermediate node found.
		 * Previous rte_rib_lookup_exact() returned NULL
		 * but node with proper search criteria is found.
		 * Validate intermediate node and return.
		 */
		if ((ip == (*tmp)->ip) && (depth == (*tmp)->depth)) {
			node_free(rib, new_node);
			(*tmp)->flag |= RTE_RIB_VALID_NODE;
			++rib->cur_routes;
			return *tmp;
		}

接下来会在install_to_fib函数里出现新的逻辑：

else if ((redge - ledge) != 0) {
		tbl24_tmp = get_tbl24(dp, ledge, dp->nh_sz);
		if ((tbl24_tmp & DIR24_8_EXT_ENT) !=
				DIR24_8_EXT_ENT) {
			tbl8_idx = tbl8_alloc(dp, tbl24_tmp);
			if (tbl8_idx < 0)
				return -ENOSPC;
			/*update dir24 entry with tbl8 index*/
			write_to_fib(get_tbl24_p(dp, ledge, dp->nh_sz),
				(tbl8_idx << 1)|
				DIR24_8_EXT_ENT,
				dp->nh_sz, 1);
		} else
			tbl8_idx = tbl24_tmp >> 1;
		tbl8_ptr = (uint8_t *)dp->tbl8 +
			(((tbl8_idx * DIR24_8_TBL8_GRP_NUM_ENT) +
			(ledge & ~DIR24_8_TBL24_MASK)) <<
			dp->nh_sz);
		/*update tbl8 with new next hop*/
		write_to_fib((void *)tbl8_ptr, (next_hop << 1)|
			DIR24_8_EXT_ENT,
			dp->nh_sz, redge - ledge);
		tbl8_recycle(dp, ledge, tbl8_idx);
	}

首先是get_tbl24，和get_tbl24_p差了一个p（呵呵哒），应该也是获取tbl24表的什么东西，进入该函数一探究竟吧：

static inline uint64_t
get_tbl24(struct dir24_8_tbl *dp, uint32_t ip, uint8_t nh_sz)
{
	return ((dp->tbl24[get_tbl_idx(get_tbl24_idx(ip), nh_sz)] >>
		(get_psd_idx(get_tbl24_idx(ip), nh_sz) *
		bits_in_nh(nh_sz))) & lookup_msk(nh_sz));
}

把tbl24表也放到这里，方便分析：

可以看到是取tbl24的内容，就是下一跳的值；

函数里的语句各种嵌套，一层层给它剥开：

dp->tbl24[get_tbl_idx(get_tbl24_idx(ip), nh_sz)]这个语句是取tbl24存储的内容，即下一跳的值，从里往外分析：

get_tbl24_idx：取ip前24bit位转换成整数

get_tbl_idx：val >> (3 - nh_sz) => (val >> 3) << nh_sz => (val / 8) * (1 << nh_sz) => val * (1 << nh_sz) / 8

为什么这么做？前面插入tbl24数组时已经分析过，要定位ip对应的下一跳在数组中的位置，需要考虑到数组指针dp->tbl24的类型和下一跳的大小，这里没有对数组指针做类型的强制转换，所以还是uint64_t，指针每次加1代表移动了8Byte，首先ip值乘以下一跳大小，代表对应的下一跳前面有多少个字节，然后除以8，代表对应的数组下标是多少，因为下一跳的大小可能小于8，所以此处只是定位到了下一跳所在的uint64_t变量的值，如下图：

接下来需要定位下一跳在该变量里的具体位置，然后取值，于是出现了下面的语句：

如果直接分析代码会很困难，几乎会绝望，换个角度分析，首先可以看到是变量的值右移，说明后面的语句计算的是对应下一跳的最后一个bit位后面的bit位数，这样右移这些bit位才能使对应的下一跳的最后一个bit位移动到最右边，就可以直接取值了，但是左边的其他下一跳bit位怎么办，当然是用下一跳的位数掩码掩掉了，所以有了：

有了这个预分析再来看这两部分代码应该就简单点了：

get_psd_idx：以8除以下一跳大小的值减去1为掩码，掩上ip的值，比较绕，其实就是8个Byte的变量里有几个下一跳，就获取ip对应的bit位数，举个例子比较容易理解，比如下一跳大小为2Byte，则变量里有4个下一跳，则取ip的最后两个bit位，因为两个bit位可以表示4个位置，这么说只是让你知道这么做的用途，如果想知道为什么这么做，那就回过头再看看前面第一次定位时的算法：(val >> 3) << nh_sz，ip右移3bit，于是ip的右边3个bit位余下来了，没有参与定位，然后再左移nh_sz，这样右边3个bit位有nh_sz位参与定位了，剩下(3 - nh_sz)个bit位就只能在第二次定位时参与了，所以get_psd_idx就是执行一个反向操作，找出来第一次没有参与定位的bit位进行第二次定位，是不是明白了呢？

知道了在变量里的位置，然后就需要知道每个下一跳的bit位数了，bits_in_nh函数就很容易看懂了，两者相乘就是对应下一跳的最后一个bit位后面的bit位数了，这里有个地方需要注意一下，因为在插入时是按照uint8_t类型的数组算位置的，即下标越大地址越高，对应在uint64_t类型的变量里，地址越高（下标越大）在变量里越靠左，所以两者相乘在变量里就是右边的bit位数；

接下来看看lookup_msk函数：

static inline uint64_t
lookup_msk(uint8_t nh_sz)
{
	return ((1ULL << ((1 << (nh_sz + 3)) - 1)) << 1) - 1;
}

1 << (nh_sz + 3)：和bits_in_nh(nh_sz)函数是一样的功能，计算下一跳所占的位数，只是写法不同而已，可以参考前面的公式变换方法；

剩下的就很容易了，最后得到的结果就是下一跳所占的位数对应的掩码

吐槽：很多地方代码有同样的功能却有不同的写法，而且获取fib表里下一跳的代码有点炫技的嫌疑，完全可以对tbl24指针做强制类型转换为下一跳一样的类型，这样就简单多了。。。

get_tbl24函数搞这么复杂只是为了获取下一跳而已，函数返回后，接下来会做个判断：

if ((tbl24_tmp & DIR24_8_EXT_ENT) !=
				DIR24_8_EXT_ENT) {

前面已经分析过，下一跳的最后一位有其他用途，这里就可以得到答案了，此bit位用于指示有没有对应的tbl8表，前面说过，如果有对应的tbl8表，则tbl24表里存储的就不是真正的下一跳了，而是tbl8表的地址（下标），所以如果还没有对应的tbl8表，需要申请tbl8表，并把tbl24的下一跳值改为tbl8的地址，如下：

if ((tbl24_tmp & DIR24_8_EXT_ENT) !=
				DIR24_8_EXT_ENT) {
			tbl8_idx = tbl8_alloc(dp, tbl24_tmp);
			if (tbl8_idx < 0)
				return -ENOSPC;
			/*update dir24 entry with tbl8 index*/
			write_to_fib(get_tbl24_p(dp, ledge, dp->nh_sz),
				(tbl8_idx << 1)|
				DIR24_8_EXT_ENT,
				dp->nh_sz, 1);
		} else

这里需要分析一下tbl8_alloc函数，首先是获取一个空闲的tbl8表：

static int
tbl8_get_idx(struct dir24_8_tbl *dp)
{
	uint32_t i;
	int bit_idx;

	for (i = 0; (i < (dp->number_tbl8s >> BITMAP_SLAB_BIT_SIZE_LOG2)) &&
			(dp->tbl8_idxes[i] == UINT64_MAX); i++)
		;
	if (i < (dp->number_tbl8s >> BITMAP_SLAB_BIT_SIZE_LOG2)) {
		bit_idx = __builtin_ctzll(~dp->tbl8_idxes[i]);
		dp->tbl8_idxes[i] |= (1ULL << bit_idx);
		return (i << BITMAP_SLAB_BIT_SIZE_LOG2) + bit_idx;
	}
	return -ENOSPC;
}

tbl8_idxes数组记录了tbl8表的使用情况，所以通过for循环遍历tbl8_idxes数组来获取空闲的tbl8表，里面的条件分析：

dp->number_tbl8s >> BITMAP_SLAB_BIT_SIZE_LOG2：相当于dp->number_tbl8s/64，因为tbl8_idxes是uint64_t类型的，每个数组的值有64bit位，对应了64个tbl8表，所以tbl8表的总数除以64表示tbl8_idxes数组的元素个数，当然i要小于它了；

dp->tbl8_idxes[i] == UINT64_MAX：表示数组元素的64个bit位全1，对应的tbl8被占用，所以这种情况不可能找到空闲的tbl8表，当然要避开，其实这个条件是为了提高效率，每次判断64bit位（一个数组元素），如果不是UINT64_MAX，则里面肯定有空闲的tbl8表，而不是每个bit位循环一次，这样效率低而且不方便操作，这个其实也可以看成是达夫设备的算法；

在找到有空闲的tbl8表的数组元素后，进一步定位具体是哪个bit位，这个和前面定位tbl24有点类似：

__builtin_ctzll：返回变量对应的bit位从右边数有几个0bit位

~dp->tbl8_idxes[i]：取反，说明从变量右边bit位开始记录

dp->tbl8_idxes[i] |= (1ULL << bit_idx)：从右边数直到找到不是1的bit位，此位对应的tbl8表是空闲的，现在要变为占用状态了

return (i << BITMAP_SLAB_BIT_SIZE_LOG2) + bit_idx：表示当前找到的空闲bit位前面有多少个bit位，也就是说当前空闲tbl8表前面有多少个tbl8表，因为tbl8表是存放在一块连续地址空间的，所以此处获取这个值就是位了定位到tbl8表的位置，然后结合这个值计算出tbl8表的地址：

tbl8_ptr = (uint8_t *)dp->tbl8 +
		((tbl8_idx * DIR24_8_TBL8_GRP_NUM_ENT) <<
		dp->nh_sz);

主要是计算目标tbl8表前面的地址空间大小，因为是连续的，所以整个内存块的起始地址加上这些地址空间大小就得到了目标tbl8表的地址；

然后用tbl24表里的下一跳初始化tbl8表的下一跳：

/*Init tbl8 entries with nexthop from tbl24*/
	write_to_fib((void *)tbl8_ptr, nh|
		DIR24_8_EXT_ENT, dp->nh_sz,
		DIR24_8_TBL8_GRP_NUM_ENT);

tbl8_alloc申请tbl8表完毕，并返回btl8表的位置，此时要把tbl8表的位置插入对应的tbl24表里（正如前述那样，tbl24在有对应tbl8表时，存放的就是tbl8表的位置了）：

/*update dir24 entry with tbl8 index*/
			write_to_fib(get_tbl24_p(dp, ledge, dp->nh_sz),
				(tbl8_idx << 1)|
				DIR24_8_EXT_ENT,
				dp->nh_sz, 1);

如果tbl24表已经有对应的tbl8表了，则取出来的tbl24的下一跳值就是对应tbl8表的位置（注意需要右移1位）：

} else
			tbl8_idx = tbl24_tmp >> 1;

现在有了tbl8表的位置了，就可以把真正的下一跳插入tbl8了：

tbl8_ptr = (uint8_t *)dp->tbl8 +
			(((tbl8_idx * DIR24_8_TBL8_GRP_NUM_ENT) +
			(ledge & ~DIR24_8_TBL24_MASK)) <<
			dp->nh_sz);
		/*update tbl8 with new next hop*/
		write_to_fib((void *)tbl8_ptr, (next_hop << 1)|
			DIR24_8_EXT_ENT,
			dp->nh_sz, redge - ledge);

注意这时和插入tbl24表是一样的，也有左右边界，所以需要在目标tbl8表里进一步定位到ledge对应的位置，大致意思是先定位出tbl8表的位置，再定位表里面左边界对应的位置（根据tbl24的定位分析，读者应该可以自行分析了，区别是tbl24只有一个表，所以没有定位表的操作，而是直接在表里定位左边界对应的位置），前面会得到左右边界的结果为：ledge = 192.168.0.8，redge = 192.168.0.16，最终结果如下：

最后一步：tbl8_recycle函数

这个函数主要功能是判断tbl8表的全部下一跳，如果都一样，则把该下一跳的值写回到对应的tbl24表，并把该tbl8表释放掉，这么做的目的其实是为了提高查找效率的，因为查找tbl24表命中的话就直接返回结果了，不用再二次查找tbl8表了；

好了，到目前为止，这四条路由基本把大部分的逻辑都包含了，还有一些没有涉及到的逻辑结合前面的分析应该比较容易理解了，读者可以自行举例分析；

4. Del功能

对应函数：modify函数指针

Del功能主要是对路由信息进行删除，在创建fib表的时候对modify函数指针进行了初始化，该指针指向了dir24_8_modify函数，此函数有个op参数，用于指示add还是del操作，del功能对应RTE_FIB_DEL操作；

对路由信息的删除就是删除fib表里的下一跳，删除trie树里的节点（rib表），跟add的顺序相反；

首先是搜索目标路由节点rte_rib_lookup_exact，找到后首先判断该节点是否有可用的父节点，如果有则判断是否和父节点的下一跳相同，如果不同则把fib表里的下一跳修改成父节点的下一跳，前面分析add功能的时候已经知道，子节点在fib表里是父节点的子集，如果要删除子节点，则需要把子集恢复成父节点的信息；如果没有父节点则直接修改成默认的下一跳：

parent = rte_rib_lookup_parent(node);
		if (parent != NULL) {
			rte_rib_get_nh(parent, &par_nh);
			rte_rib_get_nh(node, &node_nh);
			if (par_nh != node_nh)
				ret = modify_fib(dp, rib, ip, depth, par_nh);
		} else
			ret = modify_fib(dp, rib, ip, depth, dp->def_nh);

然后就是删除树节点了：

if (ret == 0) {
			rte_rib_remove(rib, ip, depth);
			if (depth > 24) {
				tmp = rte_rib_get_nxt(rib, ip, 24, NULL,
					RTE_RIB_GET_NXT_COVER);
				if (tmp == NULL)
					dp->rsvd_tbl8s--;
			}
		}

进入rte_rib_remove函数看一下：

--rib->cur_routes;
	cur->flag &= ~RTE_RIB_VALID_NODE;
	while (!is_valid_node(cur)) {
		if ((cur->left != NULL) && (cur->right != NULL))
			return;
		child = (cur->left == NULL) ? cur->right : cur->left;
		if (child != NULL)
			child->parent = cur->parent;
		if (cur->parent == NULL) {
			rib->tree = child;
			node_free(rib, cur);
			return;
		}
		if (cur->parent->left == cur)
			cur->parent->left = child;
		else
			cur->parent->right = child;
		prev = cur;
		cur = cur->parent;
		node_free(rib, prev);
	}

如果目标节点有左右孩子节点则暂时保留，只是置为不可用状态；否则开始执行删除目标节点的操作：修改孩子节点的父节点，如果目标节点父节点为空代表目标节点是树的第一个节点（顶层节点），这时需要把tree指针修改为孩子节点，也就是说孩子节点成为了一个节点，此时就完成了删除操作，如果目标节点不是第一个节点，则接着往下，判断目标节点是其父节点的左节点还是右节点，以此来决定孩子节点的位置，然后把该节点free，free操作就是把节点归还给节点池rib->node_pool，然后循环执行以上操作，循环的目的是为了删除尽可能多的不可用节点（不可用节点产生的原因又多了一个，就是前面说的左右孩子不为空的情况），用图来表示以上过程比较清晰：

最后还有个判断，如果depth大于24，说明此条路由是存放在tbl8表里的，如果是最后一个路由则需要删除掉tbl8表，所以需要跟着修改rsvd_tbl8s的值：

if (depth > 24) {
				tmp = rte_rib_get_nxt(rib, ip, 24, NULL,
					RTE_RIB_GET_NXT_COVER);
				if (tmp == NULL)
					dp->rsvd_tbl8s--;
			}

5. Free功能

对应函数：rte_fib_free

首先从全局链表rte_fib_tailq里获取到目标fib，然后从链表里出列，接着挨个free在创建时申请的内存块，比较简单，不再详述；

6. Lookup功能

对应函数：lookup函数指针

在创建fib时调用了dir24_8_get_lookup_fn函数进行了lookup函数的选择，主要是针对不同的平台定义了不同的函数，进行了针对性的优化，但是查表时的主要逻辑是一样的，选择其中一个函数LOOKUP_FUNC进行说明：

此函数为宏函数，主要是批量对ip查找路由，使用了预取的技术提高速度：

rte_prefetch0(get_tbl24_p(dp, ips[i], nh_sz));

然后先查tbl24表，如果下一跳指示有tbl8表，则继续查tbl8表，查表原理在add时已经分析过（根据ip定位位置），这里不再分析：

tmp = ((type *)dp->tbl24)[ips[i] >> 8];			\
		if (unlikely(is_entry_extended(tmp)))			\
			tmp = ((type *)dp->tbl8)[(uint8_t)ips[i] +	\
				((tmp >> 1) * DIR24_8_TBL8_GRP_NUM_ENT)]; \
		next_hops[i] = tmp >> 1;

可以看到查找时没有用到rib表（trie树），而是直接在fib表里查找的，而且最多查两次就可以找到路由，效率很高，但是怎么知道是否查找成功，这里是通过下一跳的值判断的，创建fib表时下一跳被赋予了默认值0，当下一跳的值为默认值时说明路由查找失败。

总结

本文主要讲了DPDK的fib库ipv4部分的代码逻辑，ipv6基本类似，后续有时间再分析，此库主要是管理fib表，利用dir_24_8算法保证了fib表的查找速度，但是也造成了fib表的规模庞大，如果有VRF功能，则内存空间将是个考验，可以参考linux内核3.6版本以后的fib表数据结构LC-trie树，在满足高速查找的同时也保证了空间的控制，当然这和本文是两种不同的算法和数据结构了；

weixin_37559574_飞过海

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DPDK之fib库源码分析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数..
复制链接

扫一扫