DPDK系列（二）——性能提升

最新推荐文章于 2024-08-02 16:02:21 发布

DaveyAndDomi

最新推荐文章于 2024-08-02 16:02:21 发布

阅读量2.5k

点赞数

分类专栏：开源文章标签： socket 硬件加速网络协议 DPDK

本文链接：https://blog.csdn.net/cjx1005/article/details/78466331

版权

本文探讨了DPDK如何实现高性能网络处理，通过硬件加速和避免内核上下文切换，达到比Linux内核协议栈更高的包处理速度。介绍了DPDK利用direct cache access技术减少访问延迟，以及在多线程场景下遇到的锁竞争问题和可能的解决方案，包括修改内核协议栈和使用虚拟机技术。此外，还提到了商业解决方案在纯转发性能上的优势。

摘要由CSDN通过智能技术生成

首先，DPDK和内核网络协议栈不是对等的概念。
DPDK只是单纯的从驱动拿数据，然后组织成数据块给人用，跑在用户态。功能相当于linux的设备无关接口层，处于socket之下，驱动之上。只不过linux协议栈的这部分在核心态。
你说的包处理器，很多时候是不用linux内核协议栈的，而是用专用包处理程序，类似于DPDK加上层应用处理。通常会有些硬件加速器，包处理效率更高些。缺点是一旦用不上某些功能，那些加速器就白费了。而纯软件处理就非常灵活，不过代价就是功耗和性能。
纯DPDK性能非常高，intel自己给出的数据是，处理一个包80时钟周期。一个3.6Ghz的单核双线程至强，64字节小包，纯转发能力超过90Mpps，也就是每秒9千万包。
不知你有没有看出来，80周期是一个非常惊人的数字？正常情况下，处理器访问一下ddr3内存都需要200个周期，而包处理程序所需要操作的数据，是从pcie设备送到ddr内存的，然后再由处理器读出来，也就是说，通常至少需要200周期。为啥现在80周期就能完成所有处理？我查了下文档，发现原因是使用了stashing或者叫direct cache access技术，对于PCIe网卡发过来的包，会存在一个特殊字段。x86的pcie控制器看到这个字段后，会把包头自动塞到处理器的缓存，无序处理器来干预。由于包头肯定是会被读取的，这样相当于提前预测，访问的时间大大缩短。
如果加上linux socket协议栈，比如跑个纯http包反弹，那么根据我的测量，会掉到3000-4000周期处理一个包，单核双线程在2.4Mpps，每秒两百四十万包，性能差40倍。