RDMA 相关 简要摘录

RDMA (Remote Direct Memory Access) 全称为 远程直接内存访问 

其出现的目的:为了解决网络传输中服务端数据处理的延迟而产生的。其将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。RDMA通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理能力。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。

RDMA三大特性:CPU offload 、kernel bypass、zero-copy。

RDMA提供了基于消息队列的点对点通信,每个应用都可以直接获取自己的消息,无需OS和协议栈的介入。

调用栈:

 

传统tcp/ip数据流动方式:

进程 buffer (用户空间)-> socket buffer(内核空间) -> 添加包头(内核空间)-> NIC buffer (网卡设备)-> 网络->接收端反向解析<--

特点:各层次分工完善,但是数据在传输过程中出现多次拷贝;产生延迟较高,也一定程度上浪费了内存和计算资源;

网络测试的五项指标:

  • 可用性(availability):可使用ping 命令测试网络是否通畅;
  • 响应时间(response time):ping 命令echo request/reply 一次往返所花费的时间;
  • 网络利用率(network utilization):指的是网络使用时间和空闲时间的比例;
  • 网络吞吐量(network throughput):在网络中两个节点之间,提供给网络应用的剩余带宽,测试网络吞吐的时候,需要在一天的不同时刻来进行测量;
  • 网络带宽容量(network bandwidth capacity):与吞吐不同,网络带宽容量指的是在网络两个节点之间的最大可用带宽。该值是由网络设备本身的能力决定的。

其中两个最重要的指标是高带宽和低延迟。

通信延迟 =传输延迟 + 处理延迟;

处理延迟:发生在消息的发送端和消息的接收端; 传输延迟:发生在消息在发送方和接收方之间网络上;

通信过程中处理开销主要指:buffer 管理,不同空间的消息复制,消息发送和接收过程中系统的中断;

网络中传播的消息的种类:

Large Messages: 此类消息可以理解为:传输大块文件数据;此类模式中,网络传输延迟占整个通信中的主导地位;

Small Messages: 此类消息可以理解为:传输文件元数据信息;此类模式中,处理延迟在整个通信过程中的主导地位;

传统TCP/IP存在的问题:

传统的TCP/IP的问题,主要是IO瓶颈,在高速网络条件下与网络I/O相关的主机处理的高开销限制了可以在机器之间发送的带宽。由上面的数据流动方式,我们可以看到,这里的高开销主要是数据移动和复制操作;主要是传统的TCP/IP网络通信是通过内核发送消息。Messaging passing through kernel这种方式会导致很低的性能和很低的灵活性。性能低下的原因主要是由于网络通信通过内核传递,这种通信方式存在的很高的数据移动和数据复制的开销。并且现如今内存带宽性相较如CPU带宽和网络带宽有着很大的差异。很低的灵活性的原因主要是所有网络通信协议通过内核传递,这种方式很难去支持新的网络协议和新的消息通信协议和发送、接收接口。

高性能网络通信相关研究:

  • TCP Offloading Engine(TOE):将加解包的工作下移到网卡上,需要特定网卡支持;
  • User-Net Networking(U-Net):将整个协议栈移动到用户空间中,从数据通信路径中,彻底删除内核,带来高性能和高灵活性的提升;

 

 内核接口只涉及到连接步骤,在传输过程中,减少了数据在用户空间和内核空间的复制;

  • Virtual interface Architecture(VIA):VIA 通过为每个应用进程提供受保护的,对网络硬件进行存取的接口-Virtual Interface,从而消除了传统模式下的系统处理开销;
  • Remote Direct Memroy Access(RDMA)

 RDMA 通过网络,把数据资料,直接传入计算机的存储区,消除了存储器件的赋值和上下文切换开销;其有低延迟,低CPU负载和高带宽三种特性;

RDMA 操作:

应用和RNIC之间的传输接口层(software transport interface)被称为Verbs

Memory verbs: RDMA read、write 和 atomic 操作。这些操作指定远程地址进行操作并绕过接收者的CPU; (单边操作,应用无感知)

Messaging verbs: 包括RDMA send、receive 操作。动作涉及到响应者的CPU,发送的数据被写入到由响应者CPU先前发布的接收所指定的地址;(双边操作,需应用感知)

send/receive 多用于连接控制类报文,而数据报文多是通过READ/WRITE 来完成的。双边操作与传统网络的底层Buffer Pool 类似,双方参与的过程并无差别。主要区别在于RDMA的零拷贝和Kernel Bypass。对于RDMA 这是一种负载的消息传输模式,多用于传输短的控制消息;

 

 RC 表示可靠连接;UC 表示不可靠连接;UD 表示不可靠的数据报,不支持memory verbs;

RDMA 实现:

 

 RDMA 目前有三种不同实现:InfiniBand,iWarp(internet Wide Area RDMA Protocol),RoCE(RDMA over Converged Ethernet);

Infiniband是一种专为RDMA设计的网络,从硬件级别保证可靠传输 , 而RoCE 和 iWARP都是基于以太网的RDMA技术,支持相应的verbs接口。从图中不难发现,RoCE协议存在RoCEv1和RoCEv2两个版本,主要区别RoCEv1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),而RoCEv2是以太网TCP/IP协议中UDP层实现。从性能上,很明显Infiniband网络最好,但网卡和交换机是价格也很高,然而RoCEv2和iWARP仅需使用特殊的网卡就可以了,价格也相对便宜很多。

Infiniband:支持RDMA的新一代网络协议。 由于这是一种新的网络技术,因此需要支持该技术的NIC和交换机。
RoCE:允许在以太网上执行RDMA的网络协议。 其较低的网络标头是以太网标头,其较高的网络标头(包括数据)是InfiniBand标头。 这支持在标准以太网基础设施(交换机)上使用RDMA。 只有网卡应该是特殊的,支持RoCE。
iWARP:一个允许在TCP上执行RDMA的网络协议。 IB和RoCE中存在的功能在iWARP中不受支持。 这支持在标准以太网基础设施(交换机)上使用RDMA。 只有网卡应该是特殊的,并且支持iWARP(如果使用CPU卸载),否则所有iWARP堆栈都可以在SW中实现,并且丧失了大部分RDMA性能优势。

 

 RDMA 结构图:

 

 RDMA工作过程:

  • 应用执行RDMA读写请求的时候,不需要内核内存参与,RDMA 请求直接从用户空间的应用发送到本地NIC(网卡);
  • NIC 读取缓冲区内容,并通过网络传送到远程NIC;
  • 在网络上传输的RDMA信息,包含目标虚拟地址,内存钥匙和数据本身;请求既可以完全在用户空间中处理(使用主动轮询机制),又可以在应用一直睡眠到请求完成时的情况下,通过系统中断处理。RDMA操作使得应用可以从一个远程应用的内存中(远程应用的虚拟内存)读取数据或者向这个内存中写数据;
  • 目标NIC确认内存钥匙(key),直接将数据写入应用缓存中。用于操作的远程虚拟内存地址包含在RDMA信息中;

RMDA 中专有名词和对应缩写:

Channel-IO:RDMA 在本端应用和远端应用间创建的一个消息通道;

Queue Pairs(QP):每个消息通道两端是两对QP;

Send Queue(SQ): 发送队列,队列中的内容为WQE;

Receive Queue(RQ):接收队列,队列中的内容为WQE;

Work Queue Element(WQE):工作队列元素,WQE指向一块用于存储数据的Buffer;

Work Queue(WQ): 工作队列,在发送过程中 WQ =  SQ; 在接收过程中WQ = WQ;

Complete Queue(CQ): 完成队列,CQ用于告诉用户WQ上的消息已经被处理完成;

Work Request(WR):传输请求,WR描述了应用希望传输到Channel对端的消息内容,在WQ中转化为 WQE 格式的信息;

参考链接:

https://blog.csdn.net/qq_21125183/article/details/80563463

保持更新,资源来源于对网上资料总结,如果对您有帮助,请关注 cnblogs.com/xuyaowen .

转载于:https://www.cnblogs.com/xuyaowen/p/rdma-intro.html

第1章 RDMA背景简介 ............................................. 5 第2章 哪些网络协议支持RDMA ..................................... 8 2.1 InfiniBand(IB)........................................... 8 2.2 RDMA过融合以太网(RoCE)................................... 8 2.3 互联网广域RDMA协议(iWARP)................................ 8 第3章 RDMA技术优势 ............................................. 9 第4章 RDMA有哪些不同实现 ...................................... 10 第5章 RDMA有哪些标准组织 ...................................... 14 第6章 应用和RNIC传输接口层 .................................... 18 6.1 内存Verbs(Memory Verbs)............................... 19 6.2 消息Verbs(Messaging Verbs)............................ 20 第7章 RDMA传输分类方式 ........................................ 20 7.1 RDMA原语................................................ 21 7.2 RDMA 队列对(QP)....................................... 23 7.3 RDMA完成事件............................................ 23 7.4 RDMA传输类型............................................ 24 7.5 RDMA双边操作解析........................................ 26 7.6 RDMA单边操作解析........................................ 27 7.7 RDMA技术简单总结........................................ 27 第8章 InfiniBand技术和协议架构分析 ............................ 29 8.1 InfiniBand技术的发展.................................... 29 8.2 InfiniBand技术的优势.................................... 30 8.3 InfiniBand基本概念...................................... 32 8.4 InfiniBand协议简介...................................... 33 8.4.1 物理层 ............................................ 34 8.4.2 链路层 ............................................ 34 8.4.3 网络层 ............................................ 34 8.4.4 传输层 ............................................ 35 8.4.5 上层协议 .......................................... 35 8.5 IB应用场景.............................................. 36 第9章 InfiniBand主流厂商和产品分析 ............................ 37 9.1 InfiniBand网络和拓扑.................................... 38 9.2 软件协议栈OFED.......................................... 42 9.3 InfiniBand网络管理...................................... 43 9.4 并行计算集群能力........................................ 44 9.5 基于socket网络应用能力.................................. 45 9.6 存储支持能力............................................ 45 9.7 Mellanox产品介绍........................................ 46 9.8 Infiniband交换机........................................ 48 9.9 InfiniBand适配器........................................ 51 9.10 Infiniband路由器和网关设备............................. 52 9.11 Infiniband线缆和收发器................................. 53 9.12 InfiniBand主要构件总结................................. 54 9.13 InfiniBand对现有应用的支持和ULPs支持................... 55 第10章 RDMA over TCP(iWARP)协议和工作原理 ..................... 56 10.1 RDMA相关简介........................................... 57 10.2 RDMA工作原理........................................... 59 10.3 RDMA 操作类型.......................................... 61 10.4 RDMA over TCP详解...................................... 61 10.5 RDMA标准组织............................................ 7 第11章 RoCE(RDMA over Converged Ethernet)原理 ............... 65 第12章 不同RDMA技术的比较 ..................................... 67 12.1 IB和TCP、Ethernet比较.................................. 69 12.2 RoCE和InfiniBand比较................................... 70 12.3 RoCE和IB协议的技术区别................................. 71 12.4 RoCE和iWARP的区别...................................... 71 第13章 Intel Omni-Path和InfiniBand对比分析 .................... 72 13.1 Intel True Scale Fabric介绍............................ 73 13.2 Intel True Scale InfiniBand产品........................ 74 13.3 Intel Omni-Path产品.................................... 76 第14章 RDMA关键技术延伸 ....................................... 80 14.1 RDMA指令的选择......................................... 80 14.2 慎用atomic类指令....................................... 81 14.3 减少交互次数........................................... 82 14.3.1 Wr 聚合 .......................................... 82 14.3.2 SGE 聚合 ......................................... 82 14.3.3 使用imm数据 ...................................... 83 14.3.4 使用inline数据 ................................... 83 14.3.5 CQE中使用inline数据 .............................. 83 14.3.6 WC聚合 ........................................... 84 14.4 运行模式选择........................................... 84 14.4.1 连接的模式 ....................................... 84 14.4.2 运行模式 ......................................... 85 14.5 性能与并发............................................. 86 14.6 避免CPU缓存抖动........................................ 87 14.7 避免芯片内部的缓存Miss................................. 87 14.8 时延的隐藏............................................. 88 14.8.1 利用Prefetch预取指令 ............................. 88 14.8.2 异步交互操作优先 ................................. 88 14.9 RDMA性能分析........................................... 89
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值