Linux系统编程—零拷贝

“零拷贝”指的是:不在内核态和用户态之间拷贝数据。

正常情况下,拷贝一个文件的步骤是:

  • 通过 read() 读取文件:磁盘 -> 内核缓冲区 -> 用户缓冲区;
  • 通过 write() 写数据:用户缓冲区 -> 内核缓冲区 -> 磁盘。

可见,数据在用户态缓冲区和内核态缓冲区之间来回拷贝了两次。

使用零拷贝技术之后,数据流方向为:磁盘 -> 内核缓冲区 -> 磁盘。

#define _GNU_SOURCE
#include <fcntl.h>

ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, 
               size_t len, unsigned int flags);
  • 在两个文件描述符之间拷贝数据,但不会在内核态和用户态之间来回拷贝数据。
  • 成功时返回写到管道或从管道读取的字节数,失败时返回 -1 ,并设置 errno
  • fd_in 读取数据,写到 fd_out 中,且最多只传送 len 个字节。
  • fd_infd_out 中必须有一个是管道描述符。
  • 如果 fd_in 指向管道,则 off_in 必须为 NULL
  • 如果 fd_in 不指向管道,但 off_inNULL ,则会从当前文件偏移量开始读取数据,并相应地修改文件偏移量。
  • 如果 fd_in 不指向管道,且 off_in 不为 NULL ,则会从文件偏移量 *off_in 处开始读取数据,会相应地修改 off_in ,但不会修改原来的文件偏移量。
  • fd_outoff_out 情况类似。
  • flags 常用值:SPLICE_F_MORE (提示后续会有更多的数据到来);SPLICE_F_NONBLOCK (在读写管道时不要阻塞);SPLICE_F_MOVE (如果可以的话,移动页而不是拷贝页)。
  • 在实现上,并没有将数据从输入缓冲区(内核态)拷贝到输出缓冲区(内核态),而是输入缓冲区的指针和输出缓冲区的指针指向同一个内存页。
  • 此外,len 的大小实际上受限于管道的容量(可以通过 man 7 pipe 来查看),一般是 16 个内存页(页大小可以通过 getconf PAGE_SIZE 来查看,一般是 4096 字节),故,len 的最大值一般为 65536 字节。
  • splice 的使用方法是:
    • 创建两个文件描述符:fdIn 用于输入,fdOut 用于输出;
    • 创建一个管道:pipeFds
    • 调用一次 splice :从 fdIn 读数据,并写入管道 pipeFds[1]
    • 再调用一次 splice :从管道 piepFds[0] 读数据,并写到 fdOut
#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <unistd.h>

int main(int argc, char* argv[]) {
	if (argc != 3) {
		printf("Usage: %s in-file, out-file\n", argv[0]);
		exit(EXIT_FAILURE);
	}

	int fdIn = open(argv[1], O_RDONLY);
	int fdOut = open(argv[2], O_WRONLY|O_CREAT, 0644);

	int pipeFds[2];
	pipe(pipeFds);

	size_t len = 65536;
	unsigned int flags = SPLICE_F_MOVE;
	ssize_t nRead;

	do {
		nRead = splice(fdIn, NULL, pipeFds[1], NULL, len, flags);
		splice(pipeFds[0], NULL, fdOut, NULL, nRead, flags);
	} while (nRead > 0);

	close(fdIn);
	close(fdOut);
	close(pipeFds[0]);
	close(pipeFds[1]);

	return 0;
}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
进程编程是一种应用在Unix/Linux系统中的编程方法,其中一个重要的概念就是fork(分叉)。 在Linux中,fork是一个系统调用,它创建一个新的进程。通过fork,父进程可以生成一个与自己完全相同的子进程。父进程和子进程之间的唯一区别在于它们的进程ID不同,其他方面都是一模一样的。 fork的作用是允许一个进程创建一个与自己共享资源的进程,但是拥有独立的执行空间。这样可以避免不同进程之间相互影响和干扰。 在使用fork的过程中,操作系统会将父进程的所有信息(包括代码、数据、打开的文件描述符等)拷贝一份给子进程。然后,父进程和子进程会从fork调用的返回值中得到不同的结果。在父进程中,返回的是子进程的进程ID;在子进程中,返回的是0。这样,父进程就可以根据fork的返回值来判断自己是父进程还是子进程,从而进行不同的操作。 在实际的编程中,可以通过fork来实现各种不同的功能。比如,可以通过fork创建一个子进程来进行并发执行,提高程序的运行效率。另外,可以通过fork来创建一个子进程来执行一段代码,然后通过父进程来等待子进程的结束并处理子进程的结果。 总之,进程编程中的fork是一个非常重要且常用的概念,它提供了创建和管理进程的能力,为程序的并发执行和资源的管理提供了可能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值