Intel e1000零拷贝设计实现说明

最新推荐文章于 2024-09-30 17:57:44 发布

aaa6695798

最新推荐文章于 2024-09-30 17:57:44 发布

阅读量1.3k

点赞数

分类专栏： linux 应用基础知识文章标签： socket 网络 linux header 优化

linux 应用基础知识专栏收录该内容

53 篇文章 0 订阅

订阅专栏

明Intel e1000系列网卡零拷贝的设计实现。使用该实现，应用程序可以从网卡直接接收到报文，且不存在任何数据拷贝，极大得提高了抓包性能。作者：老莱 lyxmate#gmail.com

在实际应用中，网络管理程序常常需要接收网卡的原始报文进行分析。然而，传统的报文捕获机制往往无法保证大流量的网络流的要求，从而成为系统处理的瓶颈。在Linux系统上，报文从网卡到应用层经过了多次数据拷贝，并且涉及到内核态和用户态的切换，降低了应用程序捕获报文的能力。虽然内核采用了NAPI、MMAP等机制大幅度提高了网卡到内核的接收性能，但是仍然无法满足千M网络的报文特别是小报文的处理要求。
零拷贝指的是网络接口直接将收到的报文送入应用层缓冲区，中间不涉及任何数据拷贝、系统调用、进程（线程）切换的动作，从而提高应用层接收报文性能。在网上也有相关的个人或组织研究了零拷贝实现方式，其主要的缺陷是1）通用行代码，没有针对特定网卡驱动进行优化， 2）需要重新编译内核版本，或者对内核版本特性有要求。如必须内核支持NAPI。3）千M流量下抓报率无法达到线速，性能特别是小报文的性能相差太多，64字节的小报文一般只有200~300Mbps。
本文主要阐述Linux系统下Intel e1000系列网卡零拷贝的设计实现。同时为了说明设计思路，详细说明了e1000网卡接收报文的流程，最后对应用接口也给出了简要的说明。

基本的设计思路就是：
内核和应用层程序共享一块环形内存缓冲区，内存缓冲区划分为N个slot（也可以看作可以缓存N个报文的数组），每个缓存一个报文。网卡驱动采用DMA方式向缓冲区写入报文；应用层空间从缓冲区读出数据。缓冲区有当前可以读出和写入的slot下标索引，并且每个slot有标志位，表示该slot是否为空。每个slot有一些额外的信息，例如报文长度、时间戳等。由于上层应用大多使用libpcap库接收报文，因此每个slot也包含一个pcap_header结构，这样可以保证不需要修改上层应用程序，但是会带来几个字节的额外开销。
注册一种新的socket族（PF_RING socket），实现零拷贝行为的控制，包括环形缓冲区的内存映射、接口绑定、ioctl等。新注册的socket族和e1000驱动属于同一个模块。当使用socket接口控制接口使用零拷贝机制的时候，e1000接收报文驱动就开始向环形缓冲区写入数据，而不是原始的skb机制。这时候，内核（协议族）就无法接收到网卡的报文了。
上层应用通过socket机制绑定接口、得到映射的内存后，就可以直接访问环形缓冲区数据。如果环形缓冲区没有数据，应用调用poll->PF_RING ring_poll等待报文接收。当有新的报文到来的时候，驱动程序唤醒进程继续处理报文。

lyxmate.jpg (16.79 KB)