从零手写实现 nginx-10-sendfile 零拷贝 zero-copy

前言

大家好,我是老马。很高兴遇到你。

我们为 java 开发者实现了 java 版本的 nginx

https://github.com/houbb/nginx4j

如果你想知道 servlet 如何处理的,可以参考我的另一个项目:

手写从零实现简易版 tomcat minicat

手写 nginx 系列

如果你对 nginx 原理感兴趣,可以阅读:

从零手写实现 nginx-01-为什么不能有 java 版本的 nginx?

从零手写实现 nginx-02-nginx 的核心能力

从零手写实现 nginx-03-nginx 基于 Netty 实现

从零手写实现 nginx-04-基于 netty http 出入参优化处理

从零手写实现 nginx-05-MIME类型(Multipurpose Internet Mail Extensions,多用途互联网邮件扩展类型)

从零手写实现 nginx-06-文件夹自动索引

从零手写实现 nginx-07-大文件下载

从零手写实现 nginx-08-范围查询

从零手写实现 nginx-09-文件压缩

从零手写实现 nginx-10-sendfile 零拷贝

从零手写实现 nginx-11-file+range 合并

从零手写实现 nginx-12-keep-alive 连接复用

从零手写实现 nginx-13-nginx.conf 配置文件介绍

从零手写实现 nginx-14-nginx.conf 和 hocon 格式有关系吗?

从零手写实现 nginx-15-nginx.conf 如何通过 java 解析处理?

从零手写实现 nginx-16-nginx 支持配置多个 server

什么是零拷贝?

零拷贝(Zero Copy)是一种技术,用于在数据传输过程中减少或消除数据在用户空间和内核空间之间的拷贝次数,从而提高传输效率。

它广泛应用于文件传输、网络通信等场景,尤其是在处理大数据量传输时,零拷贝技术能够显著减少CPU的负载,提高系统性能。

零拷贝的基本原理

通常,数据在从磁盘读取到发送到网络的过程中,需要多次在用户空间和内核空间之间进行拷贝。

零拷贝技术通过减少这些拷贝操作,直接在内核空间内完成数据传输,避免了不必要的数据拷贝。

传统的数据传输流程

  1. 从磁盘读取数据到内核空间:操作系统将文件从磁盘读取到内核空间的缓冲区。
  2. 从内核空间拷贝数据到用户空间:应用程序调用read系统调用,将数据从内核缓冲区拷贝到用户空间的缓冲区。
  3. 从用户空间拷贝数据到内核空间:应用程序调用write系统调用,将数据从用户空间的缓冲区拷贝到内核空间的网络缓冲区。
  4. 从内核空间发送数据到网络:操作系统将数据从网络缓冲区发送到网络接口卡(NIC)。

整个过程涉及多次拷贝操作,增加了CPU和内存带宽的消耗。

零拷贝的数据传输流程

零拷贝技术通过减少数据在用户空间和内核空间之间的拷贝次数,提高数据传输效率。以下是几种常见的零拷贝实现方式:

  1. sendfile系统调用

sendfile是Linux内核提供的系统调用,它允许直接将数据从文件描述符传输到网络套接字,而无需将数据拷贝到用户空间。其工作流程如下:

  • 内核将文件数据从磁盘读取到内核缓冲区。
  • 内核直接将数据从内核缓冲区传输到网络缓冲区,并发送到网络接口卡。

这种方式避免了数据在用户空间和内核空间之间的两次拷贝,提高了传输效率。

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
  1. mmapwrite结合使用

mmap系统调用将文件映射到用户空间的内存地址,通过内存映射,可以减少一次数据拷贝,但仍需一次从用户空间到内核空间的拷贝。工作流程如下:

  • 使用mmap将文件映射到用户空间。
  • 使用write将数据从映射的内存区域拷贝到网络缓冲区。
  1. splice系统调用

splice是Linux 2.6.17引入的系统调用,允许将数据在两个文件描述符之间传输,而无需将数据拷贝到用户空间。其工作流程如下:

  • 内核将文件数据从磁盘读取到内核缓冲区。
  • 内核直接将数据从内核缓冲区传输到另一个文件描述符(例如网络套接字)。
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

零拷贝的优点

  • 减少CPU负载:由于减少了数据拷贝的次数,CPU的负载显著降低。
  • 提高传输速度:减少数据在内存中的拷贝操作,能够提高传输速度。
  • 降低延迟:减少数据在用户空间和内核空间之间的切换,提高了数据传输的实时性。

零拷贝的应用场景

  • 大文件传输:如视频文件、日志文件等大文件的网络传输。
  • 高性能服务器:如Web服务器、文件服务器等需要处理大量并发请求的服务器。
  • 数据库系统:如数据库备份、恢复等操作中涉及大数据量传输的场景。

核心代码调整

原始分块

    /**
     * 分块传输-普通方式
     * @param context 上下文
     */
    protected void dispatchByRandomAccessFile(NginxRequestDispatchContext context) {
        final ChannelHandlerContext ctx = context.getCtx();
        final File targetFile = context.getFile();

        // 分块传输文件内容
        long totalLength = targetFile.length();
        long totalRead = 0;

        try(RandomAccessFile randomAccessFile = new RandomAccessFile(targetFile, "r")) {
            ByteBuffer buffer = ByteBuffer.allocate(NginxConst.CHUNK_SIZE);
            while (true) {
                int bytesRead = randomAccessFile.read(buffer.array());
                if (bytesRead == -1) { // 文件读取完毕
                    break;
                }
                buffer.limit(bytesRead);
                // 写入分块数据
                ctx.write(new DefaultHttpContent(Unpooled.wrappedBuffer(buffer)));
                buffer.clear(); // 清空缓冲区以供下次使用

                // process 可以考虑加一个 listener
                totalRead += bytesRead;
                logger.info("[Nginx] file process >>>>>>>>>>> {}/{}", totalRead, totalLength);
            }

            // 结果响应
            ChannelFuture lastContentFuture = ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT);
            //如果不支持keep-Alive,服务器端主动关闭请求
            if (!HttpUtil.isKeepAlive(context.getRequest())) {
                lastContentFuture.addListener(ChannelFutureListener.CLOSE);
            }
        } catch (Exception e) {
            logger.error("[Nginx] file meet ex", e);
            throw new Nginx4jException(e);
        }
    }

zero-copy

    /**
     * Netty 之 FileRegion 文件传输: https://www.jianshu.com/p/447c2431ac32
     *
     * @param context 上下文
     */
    protected void dispatchByZeroCopy(NginxRequestDispatchContext context) {
        final ChannelHandlerContext ctx = context.getCtx();
        final File targetFile = context.getFile();

        // 分块传输文件内容
        long totalLength = targetFile.length();

        try {
            RandomAccessFile randomAccessFile = new RandomAccessFile(targetFile, "r");
            FileChannel fileChannel = randomAccessFile.getChannel();

            // 使用DefaultFileRegion进行零拷贝传输
            DefaultFileRegion fileRegion = new DefaultFileRegion(fileChannel, 0, totalLength);
            ChannelFuture transferFuture = ctx.writeAndFlush(fileRegion);

            // 监听传输完成事件
            transferFuture.addListener(new ChannelFutureListener() {
                @Override
                public void operationComplete(ChannelFuture future) {
                    try {
                        if (future.isSuccess()) {
                            // 传输完毕,发送最后一个空内容,标志传输结束
                            ChannelFuture lastContentFuture = ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT);
                            // 如果不支持keep-Alive,服务器端主动关闭请求
                            if (!HttpUtil.isKeepAlive(context.getRequest())) {
                                lastContentFuture.addListener(ChannelFutureListener.CLOSE);
                            }
                        } else {
                            // 处理传输失败
                            logger.error("[Nginx] file transfer failed", future.cause());
                            throw new Nginx4jException(future.cause());
                        }
                    } finally {
                        // 确保在所有操作完成之后再关闭文件通道和RandomAccessFile
                        try {
                            fileChannel.close();
                            randomAccessFile.close();
                        } catch (Exception e) {
                            logger.error("[Nginx] error closing file channel", e);
                        }
                    }
                }
            });

            // 记录传输进度(如果需要,可以通过监听器或其他方式实现)
            logger.info("[Nginx] file process >>>>>>>>>>> {}", totalLength);

        } catch (Exception e) {
            logger.error("[Nginx] file meet ex", e);
            throw new Nginx4jException(e);
        }
    }

这里要注意,文件信息必须在传输完成后关闭。

因为 operationComplete 这个是异步的,直接 TRW 关闭资源会导致失败。很坑...

DefaultFileRegion

DefaultFileRegion是Netty中实现零拷贝文件传输的一个核心类。

它允许你在不将文件内容复制到用户空间的情况下将文件直接传输到网络,极大地提高了大文件传输的效率。

下面是对DefaultFileRegion的详细介绍,包括其工作原理和使用方法。

DefaultFileRegion的基本介绍

DefaultFileRegion类位于Netty的io.netty.channel包中。它实现了FileRegion接口,主要用于将文件的某个部分直接传输到网络套接字上,利用操作系统的零拷贝功能来提高效率。

工作原理

DefaultFileRegion通过调用操作系统的本地I/O方法(如Linux上的sendfile)实现零拷贝传输。它将数据从文件系统直接传输到网络栈,而不需要经过用户空间,这样可以避免不必要的数据拷贝,减少CPU使用,提高传输性能。

构造方法

public DefaultFileRegion(FileChannel file, long position, long count)
  • file: 要传输的文件的FileChannel
  • position: 文件传输的起始位置。
  • count: 要传输的字节数。

主要方法

  1. transferTo
public long transferTo(WritableByteChannel target, long position) throws IOException

将文件的内容从给定的位置传输到目标WritableByteChannel。这个方法会调用操作系统的底层方法来执行零拷贝。

  1. count
public long count()

返回这个文件区域的字节数。

  1. position
public long position()

返回这个文件区域的起始位置。

使用示例

以下是一个使用DefaultFileRegion进行零拷贝文件传输的示例:

import io.netty.channel.ChannelFuture;
import io.netty.channel.ChannelHandlerContext;
import io.netty.handler.codec.http.DefaultFileRegion;
import io.netty.handler.codec.http.HttpUtil;
import io.netty.handler.codec.http.LastHttpContent;

import java.io.File;
import java.io.RandomAccessFile;
import java.nio.channels.FileChannel;

public void sendFile(ChannelHandlerContext ctx, File file) {
    try {
        RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r");
        FileChannel fileChannel = randomAccessFile.getChannel();
        long fileLength = file.length();

        // Create a new DefaultFileRegion
        DefaultFileRegion fileRegion = new DefaultFileRegion(fileChannel, 0, fileLength);

        // Send the file region over the channel
        ChannelFuture sendFileFuture = ctx.writeAndFlush(fileRegion);

        // Add a listener to close the file channel after the send is complete
        sendFileFuture.addListener((ChannelFuture future) -> {
            fileChannel.close();
            randomAccessFile.close();
        });

        // If the request does not support keep-alive, close the connection
        if (!HttpUtil.isKeepAlive(request)) {
            sendFileFuture.addListener(ChannelFutureListener.CLOSE);
        }

    } catch (Exception e) {
        e.printStackTrace();
    }
}

注意事项

  1. 文件通道的管理:确保在文件传输完成后正确关闭FileChannelRandomAccessFile,避免资源泄漏。
  2. 异常处理:在传输过程中可能会遇到各种异常(如文件被删除或网络中断),需要进行适当的异常处理。
  3. 线程安全:确保FileChannel在传输过程中不会被其他线程关闭或修改。

适用场景

  • 大文件传输DefaultFileRegion非常适合用于传输大文件,如视频流、日志文件等,因为它能显著降低CPU使用率。
  • 高并发场景:在高并发场景下,减少CPU的拷贝操作能提高系统的整体性能和吞吐量。

总之,DefaultFileRegion是Netty中实现高效文件传输的一个强大工具,通过使用操作系统的零拷贝机制,可以显著提高文件传输的效率。

介绍一下零拷贝

小结

本节我们实现了文件的压缩处理,这个对于文件的传输性能提升比较大。

当然,压缩+解压本身也是对性能有损耗的。要结合具体的压缩比等考虑。

下一节,我们考虑实现一下 cors 的支持。

我是老马,期待与你的下次重逢。

开源地址

为了便于大家学习,已经将 nginx 开源

https://github.com/houbb/nginx4j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值