sendfile()系统调用
像Web
服务器和文件服务器这样的应用程序常常需要将磁盘上的文件内容不做修改的通过(已连接)套接字传输出去。一种方法是通过循环按照如下方式处理。
while((n = read(diskfilefd, buf, BUZ_SIZE)) > 0)
write(sockfd, buf, n);
对于许多应用程序来说,可以使用这样的循环。但是,如果我们需要通过套接字频繁地传输大文件的话,这种技术就显得很不高效。为了传输文件,我们必须使用两个系统调用:一个用来将文件内容从内核缓冲区cache
中拷贝到用户空间,另一个用来将用户空间缓冲区拷贝回内核空间,以此才能通过套接字进行传输。
系统调用sendfile()
被设计来消除这种低效性。当应用程序调用sendfile()
时,文件内容会直接传送到套接字上,而不会经过用户空间。这种技术被称为 零拷贝传输。
#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t* offset, size_t count);
//return number of bytes transferred, or -1 on error
系统调用sendfile()
在代表输入文件的描述符in_fd
和代表输出文件的描述符out_fd
之间传送文件内容(字节)。描述符out_fd
必须指向一个套接字。参数in_fd
指向的文件必须是可以进行mmap()
操作的。在实践中,这通常表示一个普通文件。可以使用sendfile()
将数据从文件传递到套接字上,但反过来就不行。另外,也不能通过sendfile()
在两个套接字之间直接传送数据。
如果参数offset
不是NULL
,它应该指向一个off_t
值,该值指定了起始文件的偏移量,意即从in_fd
指向的文件的这个位置开始,可以传输字节。这是一个值——结果参数,在返回的值中,它包含从in_fd
传输过来的紧靠着最后一个字节的下一个字节的偏移量。sendfile()
不会更改in_fd
的文件偏移量。
如果参数offset
指定为NULL
的话,那么从in_fd
传输的字节就从当前的文件偏移量处开始,且在传输时会更新文件偏移量以反映出已传输的字节数。
参数count
指定了请求传输的字节数。如果在count
个字节完成传输前就遇到了文件结尾符,那么只有文件结尾符之前的那些字节能传输。调用成功后,sendfile()
会返回实际传输的字节数。
下面的程序用sendfile
函数传输文件
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <assert.h>
#include <stdio.h>
#include <errno.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/sendfile.h>
int main(int argc, char* argv[])
{
if(argc <= 3)
{
printf("...");
return 1;
}
const char* ip = argv[1];
int port = atoi(argv[2]);
const char* file_name = argv[3];
int filefd = open(file_name, O_RDONLY);
assert(filefd > 0);
struct stat stat_buf;
fstat(filefd, &stat_buf);
struct sockaddr_in address;
bzero(&address, sizeof(address));
address.sin_family = AF_INET;
inet_pton(AF_INET, ip, &address.sin_addr);
address.sin_port = htons(port);
int sock = socket(PF_INET,SOCK_STREAM, 0);
assert(sock >= 0);
int ret = bind(sock, (struct sockaddr*)&address, sizof(address));
assert(ret != -1);
struct sockaddr_in client;
socklen_t client_addrlength = sizeof(client);
int connfd = accept(sock, (struct sockaddr*)&client, &client_addrlength);
if(connfd < 0)
{
printf("errno is %d\n", errno);
}
else
{
sendfile(connfd, filefd, NULL,stat_buf.st_size);
close(connfd);
}
close(sock);
return 0;
}
splice函数
splice
函数用于在两个文件描述符之间移动数据,也是零拷贝操作。
splice
函数定义如下:
#include <fcntl.h>
ssize_t splice(int fd_in, loff_t* off_in, int fd_out, loff_t* off_out,
size_t len, unsigned int flags);
fd_in
参数是待输入数据的文件描述符。如果fd_in
是一个管道文件描述符,那么off_in
参数必须被设置为NULL
。如果fd_in
不是一个管道文件描述符(比如说socket
),那么off_in
表示从输入数据流的何处开始读取数据。此外,若off_in
被设置为NULL
,则表示从输入数据流的当前偏移位置读入;若off_in
不为NULL
,则它将指出具体的偏移位置。fd_out/off_out
参数的含义与fd_in/off_in
相同,不过用于输出数据流。len
参数指定移动数据的长度;flags
参数则控制数据如何移动。
使用splice
函数时,fd_in
和fd_out
必须至少有一个是管道文件描述符。splice
函数调用成功时返回移动字节的数量。它可能返回0,表示没有数据需要移动,这发生在从管道中读取数据(fd_in
是管道文件描述符)而该管道没有被写入任何数据时。
使用splice
函数实现的回射服务器
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <assert.h>
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include <errno.h>
#include <string.h>
#include <fcntl.h>
int main(int argc, char* argv[])
{
if(argc <= 2)
{
printf("...");
return 1;
}
const char* ip = argv[1];
int port = atoi(argv[2]);
struct sockaddr_in address;
bzero(&address, sizeof(address));
address.sin_family = AF_INET;
inet_pton(AF_INET, ip, &address.sin_addr);
address.sin_port = htons(port);
int sock = socket(PF_INET, SOCK_STREAM, 0);
assert(sock >= 0);
int ret = bind(sock, (struct sockaddr*)&address, sizeof(address));
assert(ret != -1);
ret = listen(sock, 5);
assert(ret != -1);
struct sockaddr_in client;
socklen_t client_addrlength = sizeof(client);
int connfd = accept(sock, (struct sockaddr*)&client, sizeof(address));
if(connfd < 0)
{
printf("errno is: %d\n", errno);
}
else
{
int pipefd[2];
assert(ret != -1);
ret = pipe(pipefd); //创建管道
//将connfd上流入的客户数据定向到管道中
ret = splice(connfd, NULL, pipefd[1], NULL, 32768,
SPLICE_F_MORE | SPLICE_F_MOVE);
assert(ret != -1);
//将管道的输出定向到connfd客户连接文件描述符
ret = splice(pipefd[0], NULL, connfd, NULL, 32768,
SPLICE_F_MORE | SPLICE_F_MOVE);
assert(ret != -1);
close(connfd);
}
close(sock);
return 0;
}
tee函数
tee
函数在两个管道文件描述符之间复制数据,也是零拷贝操作。它不消耗数据,因此源文件描述符上的数据仍然可以用于后续的读操作。
tee
函数的原型如下:
#include <fcntl.h>
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);
fd_in
和fd_out
必须都是管道文件描述符,tee
函数成功时返回在两个文件描述符之间复制的数据数量,返回0表示没有复制任何数据。tee
失败时返回-1并设置errno
。
#include <assert.h>
#include <stdio.h>
#include <unistd.h>
#include <errno.h>
#include <string.h>
#include <fcntl.h>
int main(int argc, char* argv[])
{
if(argc != 2)
{
printf("...");
return 1;
}
int filefd = open(argv[1], O_CREAT | O_WRONLY | O_TRUNC, 0666);
assert(filefd > 0);
int pipefd_stdout[2];
int ret = pipe(pipefd_stdout);
assert(ret != -1);
int pipefd_file[2];
ret = pipe(pipefd_file);
assert(ret != -1);
//将标准输入内容输入管道pipefd_stdout
ret = splice(STDIN_FILENO, NULL, pipefd_stdout[1], NULL,
32768, SPLICE_F_MORE | SPLICE_F_MOVE);
assert(ret != -1);
//将管道pipefd_stdout的输出复制到管道pipefd_file的输入端
ret = tee(pipefd_stdout[0], pepefd_file[1], 32768, SPLICE_F_NONBLOCK);
assert(ret != -1);
//将管道pipefd_file的输出定向到文件描述符filefd上,从而将标准输入的内容写入文件
ret = splice(pipefd_file[0], NULL, filefd, NULL, 32768
, SPLICE_F_MORE | SPLICE_F_MOVE);
assert(ret != -1);
//将管道pipefd_stdout的输出定向到标准输出,其内容和写入文件的内容完全一致
ret = splice(pipefd_stdout[0], NULL, STDOUT_FILENO, NULL,32768
, SPLICE_F_MORE | SPLICE_F_MOVE);
assert(ret != -1);
close(filefd);
close(pipefd_stdout[0]);
close(pipefd_stdout[1]);
close(pipefd_file[0]);
close(pipefd_file[1]);
return 0;
}