浅谈高并发下I/O瓶颈如何优化

     I/O 的速度要比内存速度慢,尤其是在现在这个大数据时代背景下,I/O 的性能问题更是尤为突出,I/O 读写已经成为很多应用场景下的系统性能瓶颈。

    I/O 是机器获取和交换信息的主要渠道,而流是完成 I/O 操作的主要方式。

   通常把机器或者应用程序接收外界的信息称为输入流(InputStream),从机器或者应 用程序向外输出的信息称为输出流(OutputStream),合称为输入 / 输出流(I/O Streams)。

  Java 的 I/O 操作类在包java.io 下,其中 InputStream、OutputStream以及 Reader、 Writer 类是 I/O 包中的 4 个基本类,它们分别处理字节流和字符流。如下图所示:

  1. 1.    字节流

     InputStream/OutputStream 是字节流的抽象类,这两个抽象类又派生出了若干子类,不 同的子类分别处理不同的操作类型。如果是文件的读写操作,就使用 FileInputStream/FileOutputStream;如果是数组的读写操作,就使用 ByteArrayInputStream/ByteArrayOutputStream;如果是普通字符串的读写操作,就使 用 BufferedInputStream/BufferedOutputStream。具体内容如下图所示:

  1. 2.    字符流

     Reader/Writer 是字符流的抽象类,这两个抽象类也派生出了若干子类,不同的子类分别 处理不同的操作类型,具体内容如下图所示:

传统 I/O 的性能问题

      I/O 操作分为磁盘 I/O 操作和网络I/O 操作。前者是从磁盘中读取数据源输入 到内存中,之后将读取的信息持久化输出在物理磁盘上;后者是从网络中读取信息输入到内 存,最终将信息输出到网络中。但不管是磁盘 I/O 还是网络 I/O,在传统I/O 中都存在严重的性能问题。

1.    多次内存复制

传统 I/O 中,可以通过 InputStream 从源数据中读取数据流输入到缓冲区里,通过 OutputStream 将数据输出到外部设备(包括磁盘、网络)。输入操作在操作系统中的具体流程如下图所示:

      JVM 会发出 read() 系统调用,并通过 read 系统调用向内核发起读请求;

     内核向硬件发送读指令,并等待读就绪;

    内核把将要读取的数据复制到指向的内核缓存中;

    操作系统内核将数据复制到用户空间缓冲区,然后 read 系统调用返回。

    过程中,数据先从外部设备复制到内核空间,再从内核空间复制到用户空间,这就发 生了两次内存复制操作。这种操作会导致不必要的数据拷贝和上下文切换,从而降低 I/O 的性能。

2.    阻塞

      在传统 I/O 中,InputStream 的read() 是一个 while 循环操作,它会一直等待数据读取, 直到数据就绪才会返回。这就意味着如果没有数据就绪,这个读取操作将会一直被挂起,用 户线程将会处于阻塞状态。

      在少量连接请求的情况下,使用这种方式没有问题,响应速度也很高。但在发生大量连接请 求时,就需要创建大量监听线程,这时如果线程没有数据就绪就会被挂起,然后进入阻塞状 态。一旦发生线程阻塞,这些线程将会不断地抢夺 CPU 资源,从而导致大量的 CPU 上下文切换,增加系统的性能开销。

如何优化 I/O 操作

     面对以上两个性能问题,不仅编程语言对此做了优化,各个操作系统也进一步优化了 I/O。JDK1.7 发布了 NIO2,提出了从操作系统层面实现的异步 I/O。

1.    使用缓冲区优化读写流操作

    在传统 I/O 中,提供了基于流的 I/O 实现,即 InputStream 和 OutputStream,这种基于流的实现以字节为单位处理数据。

     NIO 与传统 I/O 不同,它是基于块(Block)的,它以块为基本单位处理数据。在 NIO 中,最为重要的两个组件是缓冲区(Buffer)和通道(Channel)。Buffer是一块连续的内 存块,是 NIO 读写数据的中转地。Channel表示缓冲数据的源头或者目的地,它用于读取 缓冲或者写入数据,是访问缓冲的接口。

    传统 I/O 和 NIO 的最大区别就是传统I/O 是面向流,NIO 是面向 Buffer。Buffer 可以将文件一次性读入内存再做后续处理,而传统的方式是边读文件边处理数据。虽然传统 I/O 后面也使用了缓冲块,例如 BufferedInputStream,但仍然不能和 NIO 相媲美。使用 NIO 替代传统I/O 操作,可以提升系统的整体性能,效果立竿见影。

2.    使用 DirectBuffer 减少内存复制

    NIO 的 Buffer 除了做了缓冲块优化之外,还提供了一个可以直接访问物理内存的类 DirectBuffer。普通的 Buffer 分配的是 JVM 堆内存,而 DirectBuffer 是直接分配物理内存。

    数据要输出到外部设备,必须先从用户空间复制到内核空间,再复制到输出设备,而 DirectBuffer 则是直接将步骤简化为从内核空间复制到外部设备,减少了数据拷贝。

    由于 DirectBuffer 申请的是非 JVM 的物理内存,所以创建和销毁的代价很高。DirectBuffer 申请的内存并不是直接由 JVM 负责垃圾回收,但在 DirectBuffer 包装类被回收时,会通过 Java Reference 机制来释放该内存块。

3.    避免阻塞,优化 I/O 操作

     NIO 很多人也称之为 Non-block I/O,即非阻塞 I/O,传统的 I/O 即使使用了缓冲块,依然存在阻塞问题。由于线程池线程数量有限,一旦发生 大量并发请求,超过最大数量的线程就只能等待,直到线程池中有空闲的线程可以被复用。 而对 Socket 的输入流进行读取时,读取流会一直阻塞,直到发生以下三种情况的任意一种才会解除阻塞:

    有数据可读;

    连接释放;

     空指针或 I/O 异常。

     阻塞问题,就是传统 I/O 最大的弊端。NIO 发布后,通道和多路复用器这两个基本组件实现了 NIO 的非阻塞。

通道(Channel)

     最开始,在应用程序调用操作系统 I/O 接口时,是由 CPU 完成分配,这种方式最大的问题 是“发生大量 I/O 请求时,非常消耗CPU“;之后,操作系统引入了 DMA(直接存储器 存储),内核空间与磁盘之间的存取完全由 DMA 负责,但这种方式依然需要向 CPU 申请 权限,且需要借助 DMA 总线来完成数据的复制操作,如果 DMA 总线过多,就会造成总 线冲突。

     通道的出现解决了以上问题,Channel 有自己的处理器,可以完成内核空间和磁盘之间的 I/O 操作。在 NIO 中,我们读取和写入数据都要通过 Channel,由于 Channel 是双向 的,所以读、写可以同时进行。

多路复用器(Selector)

    Selector 是 Java NIO 编程的基础。用于检查一个或多个 NIO Channel 的状态是否处于可读、可写。

     Selector 是基于事件驱动实现的,我们可以在 Selector 中注册 accpet、read 监听事件,Selector 会不断轮询注册在其上的 Channel,如果某个 Channel 上面发生监听事件,这个 Channel 就处于就绪状态,然后进行 I/O 操作。

    一个线程使用一个 Selector,通过轮询的方式,可以监听多个 Channel 上的事件。在注册 Channel 时设置该通道为非阻塞,当 Channel 上没有 I/O 操作时,该线程就不会一直等待了,而是会不断轮询所有 Channel,从而避免发生阻塞。

     目前操作系统的 I/O 多路复用机制都使用了 epoll,相比传统的 select 机制,epoll 没有最大连接句柄 1024 的限制。

      NIO是基于缓冲块为单位的流操作,在 Buffer 的基础上,新增了两个组件“管道和多路复用器”,实现了非阻塞I/O,NIO 适用于发生大量 I/O 连接请求的场景,这三个组件共同提升了 I/O 的整体性能。

更多内容请关注公众号“测试小号等闲之辈”~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值