Nvme-oF 下一代存储网络

详谈NVMe和NVMe-oF架构和知识点https://zhuanlan.zhihu.com/p/74239027

NVMe传输是一种抽象协议层(应用层),旨在提供可靠的NVMe命令和数据传输。为了支持数据中心的网络存储,通过NVMe over Fabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位。NVMe over Fabric支持把NVMe映射到多个Fabrics传输选项,主要包括FC、InfiniBand、RoCE v2、iWARP和TCP。

RDMA网络有四类,分别是Infiniband、RoCE、iWARP。其中,Infiniband是一种专为RDMA设计的网络,从硬件级别保证可靠传输 ,而RoCE 和iWARP都是基于以太网的RDMA技术。从性能上,很明显Infiniband网络最好,但网卡和交换机价格也很高,难以普及。而RoCEv2和iWARP仅需使用特殊的网卡就可以了,价格也相对便宜很多。

第一类:Infiniband,支持RDMA的网络协议。 由于这是一种新的网络技术,因此需要支持该技术的NIC网卡和交换机。

第二类:RoCE,一个允许在以太网上执行RDMA的网络协议。其较低的网络标头是以太网标头,其较高的网络标头(包括数据)是InfiniBand标头。 这支持在标准以太网基础设施(交换机)上使用RDMA。 只有网卡是特殊的,支持RoCE(Mellanox ConnectX-3网卡属于第二类)。

第三类:iWARP,一个允许在TCP上执行RDMA的网络协议。 IB和RoCE中存在的功能在iWARP中不受支持。 

第四类:TCP

--------------------------------------------------------------------------

Mellanox 开创了 RoCE 技术,阿里巴巴大规模部署 ConnectX RoCE 网卡的成功,再次证明了 RoCE 技术已经成熟,能够经济高效地加速要求最苛刻的工作负载。RDMA 技术提供从一个主机内存到另一个主机内存的远程直接内存访问,且不会干扰操作系统和 CPU,从而以低延迟、低CPU负载和高带宽提高了网络和主机的性能。RoCE 是一种行业标准协议,可在现有以太网基础架构上实现 RDMA 的所有优势。RoCE 一直是部署分布式云存储客户的必然选择。可充分利用存储介质性能提升和节点存储容量增长。
 

--------------------------------------------------------------------------

Mellanox ConnectX 网卡包括一系列以 RoCE 为中心的加速引擎,与非基于 RDMA 的解决方案相比,它支持一流的性能、可扩展性、稳定性和易用性,同时实现了显著的成本节约。其功能包括:

不到 1 微秒的点对点延迟

在全线速下,接近零的 CPU 占用率

可扩展到数千个节点

在所有类型的矩阵上(从无损到有损)均可实现杰出性能

通过自动化实现轻松部署

----------------------------------------------------------------------------

基于RDMA 的超高性能网络框架

云盘的读写离不开网络传输。使用 TCP socket 传输数据时,大部分的延迟都是由网络协议栈带来的,且网络协议栈太复杂,难于优化。相对于传统的 TCP socket 数据传输,RDMA 技术可以将应用程序 Buffer 中的数据直接拷贝到网卡内存并发送到远端,远端把数据 DMA 到应用的缓存中,相当于在应用之间建立了更快速更直接的通道,如图所示。通过上面的工作原理可以看到,使用 RDMA 做数据传输有以下几个优势:

1)  zero-copy:数据不需要在网络协议栈的各个层之间来回拷贝,这缩短了数据流路径。

2)  kernel-bypass:应用直接操作设备接口,不再经过系统调用切换到内核态,没有内核切换开销。

3)  none-CPU:数据传输无须CPU参与,完全由网卡搞定,无需再做发包收包中断处理,不耗费CPU资源。

腾讯云专门开发了针对 RDMA 的超高性能网络框架,可以充分发挥 RDMA的传输优势。在 4K-16K小 IO 场景下,相对 TCP 网络延迟下降 50%,同时有超过 5 倍的性能提升。25Gb 网络让云盘的理论读写带宽达到 2.5GB/s以上,可以让一台云主机的多块盘同时跑出极限性能。

------------------------------------------------------------------------------

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值