网卡 100G 跑不满？单进程多线程并行才是王道！

本文链接：https://blog.csdn.net/qq_63315166/article/details/145044401

你是不是也碰到过这种离谱的情况：
明明手里攥着一张 100G 的高性能网卡，但实际跑起来，就像开着法拉利去堵高峰期的四环路——卡得让人绝望。再一查，发现单核 CPU 撑死只能跑 60GB，这就很离谱了！于是你开始思考，怎么让 CPU 多线程并行干活，把网卡喂饱呢？

咱直接整干货，带点趣味。看完不敢说你就能跑满 100G，但至少少走 90% 弯路！

问题本质：网卡饿，CPU懒，咋整？

问题拆开看，其实就两件事：

单核 CPU 拉不满：你的 CPU 在单线程模式下，处理数据包生成和发送的速度，撑死只能跑到 60GB。网卡一脸嫌弃：100G 带宽的天赋，全浪费在你这条腿短的 CPU 上了。
多线程效率低：虽然多个进程可以一起把网卡填满，但让单个进程用多线程方式跑满 100G，就成了瓶颈。你得靠更好的框架和优化，才能让 CPU 和网卡都各司其职，不卡队。

解决问题：多线程框架来拯救你

说实话，单进程发满 100G，不靠多线程并行是没戏的。所以咱先看有哪些“靠谱”的框架可以用，再聊怎么用得高效。

1. DPDK（Data Plane Development Kit）

推荐指数：⭐⭐⭐⭐⭐（满分工具）
DPDK 是专为高性能网络任务设计的框架，直接绕过 Linux 内核，直接操作网卡硬件，减少上下文切换、内核栈等额外开销。简单说，能跑满网卡性能的神器。

优点：

- 用户态网络栈，效率天花板。
- 支持多核并行，能将网卡的多队列（RSS）分配给不同 CPU 核心。
- 提供零拷贝接口，最大化减少数据包发送的开销。

缺点：

- 入门门槛较高，需要你对硬件、网卡队列等有深入了解。
- 配置复杂，初次尝试可能让人崩溃。

如果你追求极致性能、想撸满 100G，DPDK 是首选。不过这玩意更像赛车工具，调优成本高，但跑起来爽。

2. Boost.Asio

推荐指数：⭐⭐⭐⭐（性能实用派）
Boost.Asio 是 C++ 中常用的异步 I/O 网络库，支持多线程和异步操作，非常适合流式处理和高性能数据发送。

优点：

- 支持线程池，可以分配任务到多个线程。
- 编程模型简单，易上手。
- 性能足够应付绝大多数场景。

缺点：

- 性能上可能比不过 DPDK，但胜在更通用。

如果你不需要追求极限性能，又想让代码写起来更优雅，Boost.Asio 是个不错的选择。

3. TBB（Threading Building Blocks）

推荐指数：⭐⭐⭐（通用工具）
Intel 的 TBB 是专门为并行计算设计的 C++ 库，能动态分配线程任务，并高效利用多核 CPU。

优点：

- 动态负载均衡，线程调度灵活。
- 适合数据生成和处理任务。

缺点：

- 偏向 CPU 密集型任务，直接用来操作网卡稍显间接，需要配合其他网络库。

如果你的任务以生成数据为主，而数据发送是次要问题，可以用 TBB 优化生成部分，再用其他网络库完成发送。

单进程撸满 100G 的实现思路

知道了框架，接下来咱聊聊实现思路。目标很明确：用多线程并行生成数据包并发送，跑满网卡的 100G 带宽。

方案 1：基于 DPDK 的实现

DPDK 是这类任务的王炸，用它跑满 100G 几乎是教科书式操作。核心思路如下：

1.初始化多队列网卡：
配置网卡的 RSS（Receive-Side Scaling）特性，创建多个硬件队列，让多个线程同时工作。

2.线程分配任务：每个线程绑定到一个 CPU 核心，同时操作一个网卡队列。每个线程独立生成数据包，并通过 DPDK 提供的接口直接发送到网卡。

3.零拷贝优化：
数据包直接从内存发送到网卡，尽量减少 CPU 的额外开销。

下面是伪代码实现：

// 初始化网卡和多队列
rte_eth_dev_configure(...);
for (int i = 0; i < num_cores; i++) {
    rte_eth_tx_queue_setup(...);  // 为每个线程分配一个队列
}

// 每个线程生成并发送数据包
void thread_task(int queue_id) {
    while (true) {
        struct rte_mbuf *packet = generate_packet();  // 生成数据包
        rte_eth_tx_burst(queue_id, packet);           // 发送数据包
    }
}

方案 2：线程池 + Boost.Asio

如果觉得 DPDK 太硬核，用 Boost.Asio + 线程池也可以实现不错的性能。核心思路：

创建线程池：
用 Boost.Asio 创建 io_context 和线程池，每个线程生成一部分数据包并发送。
异步操作：
数据包发送采用异步模式，减少等待时间。

下面是伪代码实现：

boost::asio::thread_pool thread_pool(num_threads);

for (int i = 0; i < num_threads; ++i) {
    boost::asio::post(thread_pool, [] {
        while (true) {
            auto packet = generate_packet();   // 生成数据包
            async_send(packet);                // 异步发送
        }
    });
}

thread_pool.join();