BIO-> NIO -> 多路复用,是内核发生了变化
BIO 多线程的缺点:大量线程上下文切换,线程利用率不高
NIO的缺点:加入有1w连接,每次循环中的read都要进行一次系统调用,需要进行用户态内核态切换
多路复用:一次系统调用可监控多个文件描述符的是否都相应事件发生
select原理:将要监控的文件描述符以bitmap的方式传入内核空间,内核遍历传入的所有文件描述符,对满足条件的文件
置位然后全部返回,用户程序需要遍历所有文件描述符
select缺点:监听的数目最大是1024个,内核仍然需要遍历各个文件描述符以查看其状态,每次调用前都要准备需要监视的文件描述符集合,
用户拿到返回的结果还需要遍历结果集找到置位的文件描述符
poll原理:将要监控的文件描述符以结构体数组的方式传入内核空间,内核遍历所有的文件描述符,对满足条件的文件描述符打上标记
然后全部返回,用户程序需要遍历所有文件描述符,同时当他找到被打上标记的文件描述符时,可以将标记清空,从而达到重用的目的
poll缺点:内核仍然需要遍历各个文件描述符以查看其状态,用户拿到返回的结果还需要遍历结果集找到置位的文件描述符
epoll原理:
1.创建epoll句柄 epoll_create(size)
声明自己可以监听文件描述符的数目,同时在内核开辟对应大小的空间
2.epoll_ctl()
在epoll句柄上设置被监听的文件描述符,以及监听的事件类型。
3.epoll_wait()
传入一个数组,等待监听的事件发生,对应事件放入数组,然后返回事件个数
epoll的关键在于,它并不会遍历文件描述符,而是每次有事件发生时,内核调用ecpoll_ctl注册的回调函数
将对应的文件描述符及事件添加到一个集合中
epoll优点:要被监控的文件描述符只需要传入内核一次,内核找到对应事件发生的文件描述符只需要O(1)的时间复杂度
用户拿到的结果不需要再遍历,只需要读出前k个事件发生的文件描述符
selelct的用法,每次循环时,先进行select调用,传入要监控的secket对应的文件描述符,内核进行遍历轮询,然后将可读的那几个返回,
然后程序只需要调用那些可读的socket的read方法
缺点:内核中遍历仍然是O(N)
零拷贝:传统发送数据,read,系统调用,用户态内核态的切换,数据从磁盘读入内核空间,然后从内核空间复制到
用户空间,write,系统调用,用户态内核态的切换,数据从用户空间复制到内核空间,内核将其发送
sendfile(零拷贝),系统调用,用户态内核态的切换,数据从磁盘读入内核空间然后内核将其发送
直接内存:用户空间和内核空间都可以访问的内存,好处是对于执行频繁在内核空间与用户空间来回拷贝数据的代码,可以使用直接内存
将数据放到共享内存上。
kafka的读取速度为什么快:
1)数据的写入是追加形式的,不涉及随机写
2)接收到的数据会放到直接内存中,然后可由内核程序直接写入磁盘
3)发生的数据使用了0拷贝技术