DPDK优化手段

最新推荐文章于 2024-05-11 20:11:43 发布

BthLth

最新推荐文章于 2024-05-11 20:11:43 发布

阅读量1.3k

点赞数 3

分类专栏： DPDK

本文链接：https://blog.csdn.net/sinat_42308498/article/details/107138051

版权

大页内存
大页内存是实现用户态驱动的基础，因为用户态进程的地址空间映射的物理地址不是连续的，而收发报文都需要将BUF的物理地址填入BD描述符，如果没有大页内存，即用户太申请的buf物理地址不连续，如果每次通过查找映射关系来确定用户态申请到的buf的物理地址，则性能会大大降低，甚至不可用，而有了大页内存以后，一次性映射2M设置1G的地址空间，如果将多个大页连续排布起来，则得到的连续物理地址会更多，这样每次申请得到的mbuf虚拟地址，只需要简单计算偏移即可得到对应的物理地址。然后将此物理地址写入对应的BD描述符，网卡即可按照此地址进行报文的接收回填或者发送读取。
数据预取
以X86处理器为例，CPU访问一级cache需要几个Cycle，访问二级cache需要十几个Cycle，访问三级cache需要几十个Cycle，直接访存需要一百多甚至几百个Cycle，比如我们要在一个2G主频的处理器上实现40G小包的线速收发，每秒就要处理14.88*4=59.5M个报文，这样的话平均每个包只允许消耗33个Cycle，如果有一次LLC未命中，一次内存读就要70ns，140个Cycle，可见cache对数据转发的影响之大，可以说娴熟驾驭好cache，在追求极致的性能道路上就成功一半了。
充分利用cache最基本的思路就是在合适的实际对要操作的数据进行预取，以i40e_xmit_pkts函数为例，每发送一个报文要将报文信息填写到描述符内，将原描述符内挂接的已发送完成的rte_mbuf释放掉，并将新的要发送的rte_mbuf的数据地址填写到描述符内。rte_mbuf的释放实际上是读取rte_mbuf的头信息，然后将其挂接到rte_mbuf的回收链表上，rte_mbuf每核都有一个独立的缓存链表，现在默认设置128大小，如果放置满了，rte_mbuf就会被回收到rte_mbuf池内，因为回收要访问rte_mbuf头，所以DPDK驱动就在处理要发送的rte_mbuf头信息时，预取一下要释放的rte_mbuf头信息，这样在释放旧的rte_mbuf时，其信息已在cache中，避免了访存，提升了处理效率。
再比如在接收报文时，处理当前报文时，提前去预取下一个要处理的rte_mbuf头，这样在处理当前rte_mbuf时，下一个要处理的rte_mbuf已经被预取到内存中，避免了访存，提升了处理效率
DDIO（Datadirect I/O）：
首先将设备发送一个报文，网卡的读操作：
无DDIO：
1）处理器更新报文和控制结构体，由于分配的缓冲区在内存中，因此会触发一次cache 不命中，处理器把内存读到cache中，然后处理器更新控制结构体和报文信息，之后通知NIC来取报文。
2）NIC收到有报文需要传递到网络上的通知后，它首先需要读取控制结构体进而知道。由于之前处理器刚把该缓冲区从内存读到cache中并做了更新，很有可能cache还没有来得及把更新的内容写回到内存中。因此，当NIC发起一个对内存的读请求时，很有可能这个请求会发送到cache系统中，cache系统会把数据回写到内存中，然后内存控制器再把数据写到PCI总线上。因此，一次发包会产生多次cache的load与回写；

最低0.47元/天解锁文章

BthLth

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
DPDK优化手段

大页内存大页内存是实现用户态驱动的基础，因为用户态进程的地址空间映射的物理地址不是连续的，而收发报文都需要将BUF的物理地址填入BD描述符，如果没有大页内存，即用户太申请的buf物理地址不连续，如果每次通过查找映射关系来确定用户态申请到的buf的物理地址，则性能会大大降低，甚至不可用，而有了大页内存以后，一次性映射2M设置1G的地址空间，如果将多个大页连续排布起来，则得到的连续物理地址会更多，这样每次申请得到的mbuf虚拟地址，只需要简单计算偏移即可得到对应的物理地址。然后将此物理地址写入对应的BD描..
复制链接

扫一扫