RDMA原理剖析

最新推荐文章于 2024-01-10 14:19:57 发布

冯冯冯冯超宇

最新推荐文章于 2024-01-10 14:19:57 发布

阅读量421

点赞数 2

分类专栏： RDMA 文章标签： RDMA DMA 数据传输 IO infiniband

本文链接：https://blog.csdn.net/qq_38114620/article/details/103300880

版权

RDMA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DMA(直接内存访问 Direct Memory Access)

DMA模式可以同DMA Engine之间通过硬件将数据从Buffer 1移动到Buffer 2，允许计算机主板上的设备直接把数据发送到内存中去，而不需要CPU参与操作，大大降低了CPU Copy的开销。

传统TCP/IP技术在数据包处理过程中，要经过操作系统及其他软件层，需要占用大量的服务器资源和内存总线带宽，数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动，通过CPU进行数据Copy来移动数据，将Buffer 1中的数据移动到Buffer 2中，给服务器的CPU和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽的严重“不匹配性”，更加剧了网络延迟效应。

用户进程想要执行IO操作时（向磁盘读数据，写数据），由于用户进程工作在用户模式下，它没有执行这些操作的权限，只能通过发起对应的系统调用请求操作系统帮忙完成这些操作，这里因为系统调用产生中断将陷入到内核，进行一次上下文切换操作。
内核进程帮忙执行IO操作时，由于IO操作相比于CPU来说是极慢的操作，CPU不应该等待在这个过程中，而是切换到其他进程上去执行其他任务，又得上下文切换，从内核态回到用户态。

在以前，确实是操作系统进程掌控CPU来参与IO操作，但是现在都是使用DMA技术，也就是可以直接读，写内存，而不再需要操作系统做这样的操作。
DMA要求硬件支持，需要在硬件中集成一个小型的"CPU",比如现在的机械硬盘，固态硬盘，网卡等硬件都带有DMA功能，这样操作系统要执行IO操作时，直接将相关指令发送给这些DMA硬件，DMA处理器负责IO操作，而操作系统这时可以放弃CPU，让CPU去执行其他进程。
如：
对于读磁盘文件时，操作系统将相关指令以及数据应该写在哪个内存地址发送给DMA硬件后，由DMA硬件去读写数据到指定内存地址，当IO操作完成后，DMA硬件通过总线发送一个硬件中断给CPU，于是陷入到内核态（一次上下文切换），内核就知道了IO已经完成，于是将kernel Buffer数据拷贝到用户进程的IO Buffer，并准备调度用户进程（上下文切换）
使用DMA后，只有4次必要的上下文切换，且IO操作的过程中完全不需要消耗CPU资源。

RDMA：

前面介绍缓冲空间时提到过，一般情况下，每个用户进程要读、写数据，都会经过两个必要的缓冲层：内核空间的kernel Buffer、用户空间的IO Buffer，如：读文件数据时，先将数据拷贝到内核的缓冲空间(page cache)，然后陷入内核，内核将该缓冲空间数据拷贝到用户空间的缓冲空间（IO Buffer），当调度到用户进程时，用户进程从自己的缓冲空间读取数据。

DMA机制并没有绕过这两个缓冲层，但使用RDMA机制，程序可以直接绕过kernel buffer，内核发现是RDMA操作后，直接告诉RDMA硬件将读取的数据，写入到用户空间的IO Buffer，而不需要先拷贝到Kernel Buffer,再拷贝到IO Buffer，虽然RDMA比DMA不会减少上下文切换的次数，但是是它减少了内存数据拷贝的过程，相当于是使用了O_DIRECT标记的直接IO技术。
RDMA一般实现在网卡上。
RDMA技术是内核旁路技术的一种

RDMA操作：

1 RDMA Send | RDMA发送(/接收)操作（Send/Recv）

跟TCP/IP的send/recv是类似的，不同的是RDMA是基于消息的数据传输协议（而不是基于字节流的传输协议），所有数据包的组装都在RDMA硬件上完成的，也就是说OSI模型中的下面4层(传输层，网络层，数据链路层，物理层)都在RDMA硬件上完成。

2 RDMA Read | RDMA读操作 (Pull)

RDMA读操作本质上就是Pull操作, 把远程系统内存里的数据拉回到本地系统的内存里。

3 RDMA Write | RDMA写操作 (Push)

RDMA写操作本质上就是Push操作，把本地系统内存里的数据推送到远程系统的内存里。

4 RDMA Write with Immediate Data | 支持立即的RDMA写操作

支持立即的RDMA写操作本质上就是给远程系统Push(推送)带外(OOB)数据, 这跟TCP里的带外数据是类似的。

OOB数据特点：

1.OOB数据每次只能是一个字符
2.普通数据使用一般方式接收与发送，OOB数据使用MSG_OOB接收与发送
3.一个数据使用MSG_OOB,则最后一个字符是OOB数据，其他的是非OOB数据
4.OOB数据是优先数据。优先体现在什么地方？
在我看来OOB数据优先体现在同一次发送数据（包含普通数据和OOB数据）时，OOB数据会优先于普通数据到达目标端。下边有实例可以认证这一点。

带外数据发送过程：和普通数据发送过程一样，只是在数据字符串最后一个字符处设置一个标记，目标端接收到字符串，也是存放在一个描述符号中，但是会将指针指向最后一个字符上；接收进程发现字符上有带外数据标记，会发送信号SIGURG（紧急数据），即带外数据的优先级体现在信号的优先。