Intel e1000零拷贝设计实现说明

明Intel e1000系列网卡零拷贝的设计实现。使用该实现,应用程序可以从网卡直接接收到报文,且不存在任何数据拷贝,极大得提高了抓包性能。作者: 老莱 lyxmate#gmail.com

在实际应用中,网络管理程序常常需要接收网卡的原始报文进行分析。然而,传统的报文捕获机制往往无法保证大流量的网络流的要求,从而成为系统处理的瓶颈。在Linux系统上,报文从网卡到应用层经过了多次数据拷贝,并且涉及到内核态和用户态的切换,降低了应用程序捕获报文的能力。虽然内核采用了NAPI、MMAP等机制大幅度提高了网卡到内核的接收性能,但是仍然无法满足千M网络的报文特别是小报文的处理要求。
零拷贝指的是网络接口直接将收到的报文送入应用层缓冲区,中间不涉及任何数据拷贝、系统调用、进程(线程)切换的动作,从而提高应用层接收报文性能。在网上也有相关的个人或组织研究了零拷贝实现方式,其主要的缺陷是1)通用行代码,没有针对特定网卡驱动进行优化, 2)需要重新编译内核版本,或者对内核版本特性有要求。如必须内核支持NAPI。3)千M流量下抓报率无法达到线速,性能特别是小报文的性能相差太多,64字节的小报文一般只有200~300Mbps。
本文主要阐述Linux系统下Intel e1000系列网卡零拷贝的设计实现。同时为了说明设计思路,详细说明了e1000网卡接收报文的流程,最后对应用接口也给出了简要的说明。

基本的设计思路就是:
内核和应用层程序共享一块环形内存缓冲区,内存缓冲区划分为N个slot(也可以看作可以缓存N个报文的数组),每个缓存一个报文。网卡驱动采用DMA方式向缓冲区写入报文;应用层空间从缓冲区读出数据。缓冲区有当前可以读出和写入的slot下标索引,并且每个slot有标志位,表示该slot是否为空。每个slot有一些额外的信息,例如报文长度、时间戳等。由于上层应用大多使用libpcap库接收报文,因此每个slot也包含一个pcap_header结构,这样可以保证不需要修改上层应用程序,但是会带来几个字节的额外开销。
注册一种新的socket族(PF_RING socket),实现零拷贝行为的控制,包括环形缓冲区的内存映射、接口绑定、ioctl等。新注册的socket族和e1000驱动属于同一个模块。当使用socket接口控制接口使用零拷贝机制的时候,e1000接收报文驱动就开始向环形缓冲区写入数据,而不是原始的skb机制。这时候,内核(协议族)就无法接收到网卡的报文了。
上层应用通过socket机制绑定接口、得到映射的内存后,就可以直接访问环形缓冲区数据。如果环形缓冲区没有数据,应用调用poll->PF_RING ring_poll等待报文接收。当有新的报文到来的时候,驱动程序唤醒进程继续处理报文。

lyxmate.jpg (16.79 KB)

 

lyxmate.jpg


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值