1. DPDK介绍
1) 简介
DPDK全称Intel Data Plane Development Kit,是intel提供的数据层开发套件工具集,是Intel 处理器架构下用户空间高效的数据包处理的库函数和驱动。通俗地说,就是包数据处理加速的软件库。
DPDK不同于Linux系统以通用性设计为目的,而是专注于高性能的处理网络应用中的数据包。具体体现在DPDK程序是运行在用户空间上收发数据包,绕过了Linux内核协议栈对数据包处理过程。
相比原生 Linux(Native Linux),采用Intel DPDK技术后能够大幅提升IPV4的转发性能,可以让用户在移植 包处理应用 时(从基于NPU的硬件迁移到基于Intel x86的平台上),获得更好的成本和性能优势。同时可以采用统一的平台部署不同的服务,如应用处理,控制处理和包处理服务。
2) 技术优点
通过UIO技术将报文拷贝到应用空间处理,规避不必要的内存拷贝和系统调用,便于快速迭代优化。
通过大页内存HUGEPAGE,降低cache miss(访存开销),利用内存多通道交错访问提高内存访问有效带宽,即提高命中率,进而提高cpu访问速度。
通过CPU亲和性,绑定网卡和线程到固定的core,减少cpu任务切换。特定任务可以被指定只在某个核上工作,避免线程在不同核间频繁切换,保证更多的cache命中。
通过无锁队列,减少资源竞争。cache行对齐,预取数据,多元数据批量操作。
通过轮询可在包处理时避免中断上下文切换的开销。
3) DPDK、网卡、用户应用程序、内核之间的关系
PMD:Pool Mode Driver,轮询模式驱动,通过非中断,以及数据帧进出应用缓冲区内存的零拷贝机制,提高发送/接受数据帧的效率。
流分类:Flow Classification,为N元组匹配和LPM(最长前缀匹配)提供优化的查找算法。
环队列:Ring Queue,针对单个或多个数据包生产者、单个数据包消费者的出入队列提供无锁机制,有效减少系统开销。
MBUF缓冲区管理:分配内存创建缓冲区,并通过建立MBUF对象,封装实际数据帧,供应用程序使用。
EAL:Environment Abstract Layer,环境抽象(适配)层,PMD初始化、CPU内核和DPDK线程配置/绑定、设置HugePage大页内存等系统初始化。
2. 源程序包组成
1) Makefile &&CONFIG
MakeFile文件主要位于位于 $(RTE_SDK)/mk 中。此处留在后面第5节进行讨论
配置模板位于 $(RTE_SDK)/config。这些模板描述了为每个目标启用的选项。 配置文件许多可以为DPDK库启用或禁用的选项,包括调试选项。用户应该查看配置文件并熟悉这些选项。配置文件同样也用于创建头文件,创建的头文件将位于新生成的目录中。一般可以根据用户编译的编译器和操作系统来直接选择配置项。
2) Lib库
库文件源码位于目录$(RTE_SDK)/lib中。按照惯例,库指的是为应用程序提供API的任何代码。通常,它会生成一个(.a)文件,这个目录中可能也保存一些内核模块。
Lib常用库文件包含以下内容
lib
+-- librte_cmdline # 命令行接口
+-- librte_distributor # 报文分发器
+-- librte_eal # 环境抽象层
+-- librte_ether # PMD通用接口
+-- librte_hash # 哈希库
+-- librte_ip_frag # IP分片库
+-- librte_kni # 内核NIC接口
+-- librte_kvargs # 参数解析库
+-- librte_lpm # 最长前缀匹配库
+-- librte_mbuf # 报文及控制缓冲区操作库
+-- librte_mempool # 内存池管理器
+-- librte_meter # QoS metering 库
+-- librte_net # IP相关的一些头部
+-- librte_power # 电源管理库
+-- librte_ring # 软件无锁环形缓冲区
+-- librte_sched # QoS调度器和丢包器库
+-- librte_timer # 定时器库
3) 应用程序
应用程序是包含 main() 函数的源文件。 他们位于 $(RTE_SDK)/app 和 $(RTE_SDK)/examples 目录中。
常用示例文件:
examples
+-- cmdline # Example of using the cmdline library
+-- exception_path # Sending packets to and from Linux TAP device
+-- helloworld # Basic Hello World example
+-- ip_reassembly # Example showing IP reassembly
+-- ip_fragmentation # Example showing IPv4 fragmentation
+-- ipv4_multicast # Example showing IPv4 multicast
+-- kni # Kernel NIC Interface (KNI) example
+-- l2fwd # L2 forwarding with and without SR-IOV
+-- l3fwd # L3 forwarding example
+-- l3fwd-power # L3 forwarding example with power management
+-- l3fwd-vf # L3 forwarding example with SR-IOV
+-- link_status_interrupt # Link status change interrupt example
+-- load_balancer # Load balancing across multiple cores/sockets
+-- multi_process # Example apps using multiple DPDK processes
+-- qos_meter # QoS metering example
+-- qos_sched # QoS scheduler and dropper example
+-- timer # Example of using librte_timer library
+-- vmdq_dcb # Example of VMDQ and DCB receiving
+-- vmdq # Example of VMDQ receiving
+-- vhost # Example of userspace vhost and switch
3. DPDK架构分析
4. Dpdk基础库介绍
1) EAL 环境适配层
环境抽象层为底层资源如硬件和内存空间的访问提供了接口。 这些通用的接口为APP和库隐藏了不同环境的特殊性。 EAL负责初始化及分配资源(内存、PCI设备、定时器、控制台等等)。
典型函数:rte_eal_init
抄自dpdk网站:
EAL提供的典型服务有:
• DPDK的加载和启动:DPDK和指定的程序链接成一个独立的进程,并以某种方式加载
•