浅谈 RDMA 与无损网络

最新推荐文章于 2024-06-07 13:37:23 发布

青云技术社区

最新推荐文章于 2024-06-07 13:37:23 发布

阅读量896

点赞数 1

文章标签：云计算云存储

本文链接：https://blog.csdn.net/qingcloudedu/article/details/121360279

版权

本文探讨了在云计算和大数据时代，RDMA技术如何解决TCP/IP的延迟和CPU负担问题，以及如何通过差异化流量分类、PFC和ECN构建无损网络，确保RDMA的高吞吐、低延迟和低CPU开销。

摘要由CSDN通过智能技术生成

为什么需要 RDMA

当今是云计算、大数据的时代，企业业务持续增长需要存储系统的 IO 性能也持续增长。传统的 TCP/IP 技术在数据包处理过程中，要经过操作系统及其他软件层，数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制，给服务器的 CPU 和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽三者的严重"不匹配性"，更加剧了网络延迟效应。为了降低数据中心内部网络延迟，提高带宽，RDMA 技术应运而生。RDMA 允许用户态的应用程序直接读取和写入远程内存，避免了数据拷贝和上下文切换；并将网络协议栈从软件实现 offload 到网卡硬件，实现了高吞吐量、超低时延和低 CPU 开销的效果。

当前 RDMA 在以太网上的传输协议是 RoCEv2，RoCEv2 是基于无连接协议的 UDP 协议，相比面向连接的 TCP 协议，UDP 协议更加快速、占用 CPU 资源更少，但其传输是不可靠的，一旦出现丢包会导致 RDMA 的传输效率降低，这是由 RDMA 的 Go-back-N 重传机制决定的。RDMA 接收方网卡发现丢包时，会丢弃后续接收到的数据包，发送方需要重发之后的所有数据包，这导致性能大幅下降。所以要想 RDMA 发挥出其性能，需要为其搭建一套不丢包的无损网络环境。