DMA(直接内存访问 Direct Memory Access)
DMA模式可以同DMA Engine之间通过硬件将数据从Buffer 1移动到Buffer 2,允许计算机主板上的设备直接把数据发送到内存中去,而不需要CPU参与操作,大大降低了CPU Copy的开销。
传统TCP/IP技术在数据包处理过程中,要经过操作系统及其他软件层,需要占用大量的服务器资源和内存总线带宽,数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动,通过CPU进行数据Copy来移动数据,将Buffer 1中的数据移动到Buffer 2中,给服务器的CPU和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽的严重“不匹配性”,更加剧了网络延迟效应。
用户进程想要执行IO操作时(向磁盘读数据,写数据),由于用户进程工作在用户模式下,它没有执行这些操作的权限,只能通过发起对应的系统调用请求操作系统帮忙完成这些操作,这里因为系统调用产生中断将陷入到内核,进行一次上下文切换操作。
内核进程帮忙执行IO操作时,由于IO操作相比于CPU来说是极慢的操作,CPU不应该等待在这个过程中,而是切换到其他进程上去执行其他任务,又得上下文切换,从内核态回到用户态。
在以前,确实是操作系统进程掌控CPU来参与IO操作,但是现在都是使用DMA技术,也就是可以直接读,写内存,而不再需要操作系统做这样的操作。
DMA要求硬件支持,需要在硬件中集成一个小型的"CPU",比如现在的机械硬盘,固态硬盘,网卡等硬件都带有DMA功能,这样操作系统要执行IO操作时,直接将相关指令发送给这些DMA硬件,DMA处理器负责IO操作,而操作系统这时可以放弃CPU,让CPU去执行其他进程。
如:
对于读磁盘文件时,操作系统将相关指令以及数据应该写在哪个内存地址发送给DMA硬件后,由DMA硬件去读写数据到指定内存地址,当IO操作完成后,DMA硬件通过总线发送一个硬件中断给CPU,于是陷入到内核态(一次上下文切换),内核就知道了IO已经完成,于是将kernel Buffer数据拷贝到用户进程的IO Buffer,并准备调度用户进程(上下文切换)
使用DMA后,只有4次必要的上下文切换,且IO操作的过程中完全不需要消耗CPU资源。
RDMA:
前面介绍缓冲空间时提到过,一般情况下,每个用户进程要读、写数据,都会经过两个必要的缓冲层:内核空间的kernel Buffer、用户空间的IO Buffer,如:读文件数据时,先将数据拷贝到内核的缓冲空间(page cache),然后陷入内核,内核将该缓冲空间数据拷贝到用户空间的缓冲空间(IO Buffer),当调度到用户进程时,用户进程从自己的缓冲空间读取数据。
DMA机制并没有绕过这两个缓冲层,但使用RDMA机制,程序可以直接绕过kernel buffer,内核发现是RDMA操作后,直接告诉RDMA硬件将读取的数据,写入到用户空间的IO Buffer,而不需要先拷贝到Kernel Buffer,再拷贝到IO Buffer,虽然RDMA比DMA不会减少上下文切换的次数,但是是它减少了内存数据拷贝的过程,相当于是使用了O_DIRECT标记的直接IO技术。
RDMA一般实现在网卡上。
RDMA技术是内核旁路技术的一种
RDMA操作:
1 RDMA Send | RDMA发送(/接收)操作 (Send/Recv)
跟TCP/IP的send/recv是类似的,不同的是RDMA是基于消息的数据传输协议(而不是基于字节流的传输协议),所有数据包的组装都在RDMA硬件上完成的,也就是说OSI模型中的下面4层(传输层,网络层,数据链路层,物理层)都在RDMA硬件上完成。
2 RDMA Read | RDMA读操作 (Pull)
RDMA读操作本质上就是Pull操作, 把远程系统内存里的数据拉回到本地系统的内存里。
3 RDMA Write | RDMA写操作 (Push)
RDMA写操作本质上就是Push操作,把本地系统内存里的数据推送到远程系统的内存里。
4 RDMA Write with Immediate Data | 支持立即的RDMA写操作
支持立即的RDMA写操作本质上就是给远程系统Push(推送)带外(OOB)数据, 这跟TCP里的带外数据是类似的。
OOB数据特点:
1.OOB数据每次只能是一个字符
2.普通数据使用一般方式接收与发送,OOB数据使用MSG_OOB接收与发送
3.一个数据使用MSG_OOB,则最后一个字符是OOB数据,其他的是非OOB数据
4.OOB数据是优先数据。优先体现在什么地方?
在我看来OOB数据优先体现在同一次发送数据(包含普通数据和OOB数据)时,OOB数据会优先于普通数据到达目标端。下边有实例可以认证这一点。
带外数据发送过程:和普通数据发送过程一样,只是在数据字符串最后一个字符处设置一个标记,目标端接收到字符串,也是存放在一个描述符号中,但是会将指针指向最后一个字符上;接收进程发现字符上有带外数据标记,会发送信号SIGURG(紧急数据),即带外数据的优先级体现在信号的优先。