深入学习JAVA I/O工作机制

本文深入探讨了JAVA I/O的工作机制,包括标准访问文件、直接I/O和内存映射三种方式,强调了数据在内核空间和用户空间的传输以及缓存的作用。还介绍了文件描述符、序列化和Socket通信的基础知识,分析了BIO在网络I/O中的挑战,并提到了NIO作为解决方案。
摘要由CSDN通过智能技术生成

我们知道,读取和写入文件I/O操作都调用操作系统提供的接口,因为磁盘设备是由操作系统管理的,应用程序要访问物理设备只能通过系统调用的方式来工作。读和写分别对应read()和write()两个系统调用。而只要是系统调用就可能存在内核空间地址和用户空间地址切换的问题,这是操作系统为了保护系统本身的运行安全,而将内核程序运行使用的内存空间和用户程序运行的内存空间进行隔离造成的。但是这样虽然保证了内核程序运行的安全性,但是也必然存在数据可能需要从内核空间向用户空间复制的问题。如果遇到非常耗时的操作,如磁盘I/O,数据从磁盘复制到内核空间,然后又从内核空间复制到用户空间,将会非常缓慢。这时操作系统为了加速I/O访问,在内核空间使用缓存机制,也就是将从磁盘读取的文件按照一定的组织方式进行缓存,如果用户程序访问的是同一段磁盘地址的空间数据,那么操作系统从内核缓存中直接取出返回给用户程序,这样可以减少I/O的响应时间。

1、标准访问文件的方式:
当应用程序调用read()接口时,操作系统检查在内核的高速缓存中有没有需要的数据,如果已经缓存了,那么直接从缓存中返回,如果没有,则从磁盘中读取,然后缓存在操作系统的缓存中。写入的方式是,用户的应用程序调用write()接口将数据从用户地址空间复制到内核地址空间的缓存中。这时对于用户程序来说写操作就已经完成,至于什么时候再写入磁盘中由操作系统决定,除非显式地调用了sync同步命令。
这里写图片描述

2、直接I/O的方式
应用程序直接访问磁盘数据,而不经过操作系统内核数据缓冲区,这样做的目的就是减少一次从内核缓冲区到用户缓存的数据复制。这种访问文件的方式通常实在对数据的缓存管理由应用程序实现的数据库管理系统中。如在数据库管理系统中,系统明确知道应该缓存哪些数据,应该失效哪些数据,还可以对一些热点数据做预加载,提前将热点数据加载到内存,可以加速数据的访问效率。如果由操作系统进行缓存,则很难做到,因为操作系统不知道哪些是热点数据。但直接I/O也有负面影响,如果访问的数据不再应用程序缓存中,那么每次数据都会直接从磁盘进行加载。通常直接I/O与异步I/O结合使用会得到比较好的性能。
这里写图片描述

3、内存映射的方式
内存映射的方式是指操作系统内存中的某一块区域与磁盘中的文件关联起来,当要访问内存中的一段数据时,转换为访问文件的某一段数据。这种方式的目的同样是减少数据从内核空间缓存到用户空间缓存的数据复制操作,因为这两个空间的数据是共享的。
这里写图片描述

上面介绍了如何操作数据,基于字节、字符、磁盘、网络的I/O。还有一个关键的问题就是数据写到何处,其中一种主要的方式就是将数据持久化到物理磁盘。
我们知道,数据在磁盘中的唯一最小描述就是文件,也就是说上层应用程序只能通过文件来操作磁盘的数据,文件也是操作系统和磁盘驱动器交互的最小单元。 值得注意的是,在JAVA中通常的File并不代表一个真实存在的文件对象,当你指定一个路径描述符时,他就会返回一个带有路径的虚拟文件对象,这可能是一个真实存在的文件或者是一个包含多个文件的目录。为什么这样设计呢?因为大多数情况下,我们并不关心这个文件是否真的存在,而是关心对这个文件到底如何操作。
FileInputStream类都是操作一个文件的接口,注意在创建一个FileInputStream对象时会创建一个FileDescriptor对象,其实这个对象就是真正代表一个存在的文件对象的描述。当我们在操作一个文件对象时,可以通过getFD()方法获取真正操作的与底层操作系统相关的文件描述。例如,可以调用FileDescriptor.sync()方法将操作系统缓存中的数据强制刷新到物理磁盘中。
下面以前面读取文件的程序为例介绍如何从磁盘读取一段文本字符。
当传入一个文件路径时,将会根据这个路径创建一个File对象来标识这个文件,然后根据这个File对象创建真正读取文件的操作对象,这时将会真正创建一个关联真实存在的磁盘文件的文件描述符FileDescriptor,通过这个对象可以直接控制整个磁盘文件。由于我们读取的字符格式,所以需要StreamDecoder类将byte解码为char格式。至于如何从磁盘驱动器上读取一段数据,操作系统会帮我们完成。至于操作系统是如何将数持久化到磁盘及如何建立数据结构的,需要根据当前操作系统使用何种文件系统来回答。

这里写图片描述

Java序列化就是将一个对象转化成一串二进制表示的字节数组,通过保存或转移这些字节数据来达到持久化的目的。需要持久化,对象必须继承java.io.Serializable接口。反序列化则是相反的过程,将这个字节数据再重新构造对象。我们知道反序列化时,必须有原始类作为模板,才能将这个对象还原,从这个过程我们猜测,序列化的数据并不想class文件那样保存类的完整的信息结构信息。具体二进制流保存哪些信息在此不叙述。

Java Socket工作机制:
Socket这个概念没有对应到一个具体的实体,他描述计算机之间完成相互通信的一种抽象功能。打比方,可以把Socket比作两个城市之间的交通工具,有了它,就可以在城市之间来回穿梭了。交通工具有多种,每种交通工具也有相应的交通规则。Socket也一样,也有多种。大部分情况下我们使用的都是基于TCP/IP的流套接字。主机A的应用程序要能和主机B的应用程序通信,必须通过Socket建立连接,而建立Socket连接必须由底层TCP/IP建立TCP连接。建立TCP连接需要底层IP啦寻址网络中的主机。我们知道网络层使用的IP可以帮助我们根据IP地址来找到目标主机,但是一台主机上可能运行着多个应用程序,如果才能与制定的应用程序通信就要通过TCP或者UDP的地址也就是端口号来指定。这样就可以通过一个Socket实例来唯一代表一个主机上的应用程序的通信链路了。

建立通信链路:
当客户端要与服务端通信时,客户端首先要创建一个Socket实例,操作系统将为这个Socket实例分配一个没有被使用的本地端口号,并创建一个包含本地地址、远程地址和端口号的套接字数据结构,这个数据结构将一直保存在系统中直到这个链接关闭。在创建Socket实例的构造函数正确返回之前,将要进行TCP的3次握手协议,TCP握手协议完成后,Socket实例对象将创建完成,否则将抛出IOException。
与之对应的服务端将创建一个ServerSocket实例,创建ServerSocket比较简单,只要指定端口号没有被占用,一般实例创建都会成功。同时操作系统也会为ServerSocket实例创建一个底层数据结构,在这个数据结构中包含指定监听的端口号和包含监听地址的通配符,通常情况下都是“*”,即监听所有地址。之后当调用accept()方法时,将进入阻塞状态,等待客户端请求。当一个新的请求到来时,将为这个连接创建一个新的套接字数据结构,该套接字数据的信息包含的地址和端口信息正是请求源地址和端口。这个新创建的数据结构将会被关联到ServerSocket实例的一个未完成的连接数据结构列表中。注意,这时服务端的与之对应的Socket实例并没有返回创建,而是等到与客户端的3次握手完成后,这个服务端的Socket实例才会返回,并将这个Socket实例对应的数据结构从未完成列表中移到已完成列表中。所以与ServerSocket所关联的列表中每个数据结构都代表与一个客户端建立的TCP连接。

传输数据使我们建立连接的目的。
当连接已经建立成功时,服务端和客户端都会拥有一个Socket实例,每个Socket实例都有一个InputStream和OutputStream,并通过这两个对象交换数据。同时我们也知道网络I/O都是以字节流传输的,当创建Socket对象时,操作系统会为InputStream和OutputStream分别分配一定大小的缓存区,数据的写入和读取都是通过这个缓存区完成的。写入端将数据写到OutputStream对应的SendQ队列中,当队列满了,数据将被转移到另一端InputStream的RecvQ队列中,如果这时RecvQ已经满了,那么OutputStream的write方法将会阻塞,直到RecvQ队列有足够的空间容纳SendQ发送的数据。特别值得注意的是,这个缓冲区的大小及写入端的速度和读取端的速度非常影响整个连接的数据传输效率,由于可能发生阻塞,所以网络I/O与磁盘I/O不同的是数据写入和读取还要有一个协调的过程,如果两边同时传送数据可能会产生死锁。

BIO带来的挑战:
阻塞I/O,不论是磁盘I/O,还是网络I/O都有可能出现阻塞,一旦有阻塞,线程将会失去CPU的使用权。虽然当前的网络I/O有一些解决办法,如一个客户端对应一个处理线程,出现阻塞时只是一个线程阻塞而不会影响其他线程工作。还有为了减少系统线程的开销,采用线程池的办法来减少线程创建和回收的成本,但有些场景依然无法解决,比如需要大量HTTP长链接的情况,服务端需要同时保持几百万的HTTP连接,但并不是每时每刻这些连接都在传输数据,在这种情况下不可能同时创建这么多线程来保持连接。

NIO例子:

public void selector() throws Exception{
        ByteBuffer buffer = ByteBuffer.allocate(1024);
        //创建一个静态的选择器
        Selector selector = Selector.open();
        ServerSocketChannel serverSocketChannel = ServerSocketChannel.open();
        //设置为非阻塞方式
        serverSocketChannel.configureBlocking(false);
        //创建服务端Channel,绑定到Socket
        serverSocketChannel.socket().accept().bind(new InetSocketAddress(8080));
        //注册监听事件
        serverSocketChannel.register(selector, SelectionKey.OP_ACCEPT);
        while(true){
            Set selectedKeys = selector.selectedKeys();
            Iterator iterator = selectedKeys.iterator();
            //遍历返回的key,查看是否有事件发生
            while (iterator.hasNext()){
                SelectionKey key = (SelectionKey) iterator.next();
                if ((key.readyOps()&SelectionKey.OP_ACCEPT)==SelectionKey.OP_ACCEPT){
                    ServerSocketChannel ssChannel = (ServerSocketChannel)key.channel();
                    //接受到服务端的请求
                    SocketChannel sc = ssChannel.accept();
                    sc.configureBlocking(false);
                    sc.register(selector,SelectionKey.OP_READ);
                    iterator.remove();
                }else if ((key.readyOps()&SelectionKey.OP_READ)==SelectionKey.OP_READ){
                    SocketChannel sc =(SocketChannel) key.channel();
                    while (true){
                        buffer.clear();
                        //读取数据
                        int  n = sc.read(buffer);
                        if (n<=0){
                            break;
                        }
                        buffer.flip();
                    }
                    iterator.remove();
                }
            }
        }
    }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值