I/0模型

在高性能服务器中, 一般采用非阻塞网络IO,单进程事件驱动的架构 。这种架构的核心是事件驱动机制。目前Linux常用select,poll和epoll系统调用来完成事件驱动。select和poll是传统的unix事件驱动机制,但它们有很大的缺点:在大量的并发连接中, 如果冷连接较多,select和poll的性能会因为并发数的线性上升而成平方速度的下降 ,这是因为调用者在每次select和poll返回时都要检测每个连接是否有事件发生,当连接数很大时,系统开销会非常大。 另外select和poll每次返回时都要从内核向用户空间复制大量的数据 ,这样的开销也很大。所以,select和poll并不是处理网络IO的最好方案。

于是从Linux2.5开始,出现了一个新的系统调用epoll,它不仅可以完成select/epoll的功能,而且性能更高,功能更强。epoll的优点:1, 每次只返回有事件发生的文件描述符信息,这样调用者不用遍历整个文件描述符队列,而且系统不用从内核向用户空间复制大量无用的数据 ;2, epoll可以设置不同的事件触发方式:边缘触发和电平触发,为用户使用epoll提供了灵活性 。epoll也有缺点:1,在冷连接很少的情况下,性能与select和poll相比并没有什么优势;2,目前的实现还不完整,不支持EPOLLHUP事件,在边缘触发情况下,无法处理客户端网络连接主动断开;3,使用比较麻烦,如何边缘触发方式必须要小心处理,否则程序可能无法完成功能,在采用电平触发方式时,调用者要避免epoll_wait发生空转。

一, 磁盘IO

Linux磁盘IO有同步模式和异步模式 。同步模式就是常见read/write系统调用,这两个系统调用都被认为是低速系统调用,执行时可能会使进程阻塞,在单进程的服务器中,这会使系统性能下降。所以Linux提供了异步磁盘IO。目前Linux中主要有两种异步IO解决方案:1, 由glibc 实现的Posix AIO (aio_read,aio_write,….),采用线程或实时信号来通知IO完成,用户也可以采用轮询方式来检测IO是否完成;2, 由kernel实现的Linux AIO (io_setup, io_getevents,…),事件的通知机制(io_getevents)是采用类似select的语义。 它们的共同点都是采用了多线程的方式来处理阻塞的磁盘IO,使其看起来像异步的 。这两种方式主要区别是:1,Posix AIO是在用户态下实现的而Linux AIO是在内核中实现的;2,事件的通知机制不同,前面已说明。Posix AIO和Linux AIO性能的比较还没有做过。Linux的异步磁盘IO机制的缺点是:无论Posix AIO还是Linux AIO在处理新的IO请求时都会做创建线程的操作,这样比较的费时。

Linux磁盘IO还可以用内存映射的方式 ,优点是:1,可以避免在用户空间和内核空间之间复制数据;2,如果把小文件合成大文件,对大文件进行内存映射,可以减少open系统调用的次数。但内存映射的缺点也很明显:1,由于3G以上的大文件无法映射进内存,使用有局限性;2,如果所访问的页面不在内存中,需要进行换页操作,进程会阻塞。虽然合理地使用mincore可以避免进程阻塞,但编程实现难度较高。

如果是从磁盘向网络传送数据的话还可以使用sendfile,sendfile可以在内核空间中直接从磁盘向网络传送数据,避免了内存复制

二, 同时处理网络IO和磁盘IO

数据服务器要同时处理大量的并发网络连接,而且处理这些网络连接需要进行大量的磁盘IO,如读取文件。在这样情况下,我们提出了两种模型:

1,分离网络IO和磁盘IO。这种模型是指用一个进程(RelayServer)来处理大量并发的网络连接,另一个进程(DataServer)处理磁盘IO,两个进程通过一个TCP连接交换信息,当客户(Client)请求到达,RelayServer将其转发给DataServer,DataServer去磁盘上读数据,读好数据后,将数据回传给RelayServer,RelayServer再转发给Client。

2,不分离网络IO和磁盘IO。这种模型是指只用一个进程(DataServer)来同时处理磁盘IO和网络IO。

下面讨论这两种模型的实现方案:

无论是采用哪种模型,都涉及到对大量磁盘IO的处理。根据前面对Linux磁盘IO的讨论,我们试验了以下几种磁盘IO的实现方式:

1,Posix AIO, 实时信号通知 。由于磁盘IO通常会在较短的时间内完成,进程频繁地被信号中断,系统调用频繁自动重启动,造成整个性能的下降。另外,因为无法向信号处理函数传参数,信号处理函数很难实现较为复杂的功能。

2,Posix AIO, 线程通知 。每完成一个IO请求,系统就会创建线程,开销较大。

3,Posix AIO, 轮询 。很难跟DataServer的epoll逻辑结合,只有不断轮询,性能较低。
Linux AIO未作测试,性能未知。内存映射无法处理很大的文件,也未采用。

从上面看来,Linux提供的异步IO机制无法满足我们的需求,于是我们自己在用户层实现了异步IO。我们的异步IO主要框架是采用预先创建线程,形成线程池。处理流程:用户发IO请求,线程池中的工作线程被唤醒,工作线程采用一般的read/write系统调用处理IO(为了保证磁盘IO能够完成,我们用的是readn和writen),工作线程做完IO后通过一个管道向epoll通知,并把用户IO的请求挂到完成队列上,epoll收到通知后,从完成队列中取下,再做相应的操作。根据我们的性能比较,这种方式比前面几种实现性能都要高,而且实现起来比较容易。所以我们对磁盘IO的处理主要采用这种方式,但针对不分离模型和分离模型的不同细节,又有所变化。

针对不分离模型 ,我们系统使用epoll管理socket描述符和一个管道描述符(磁盘IO用管道来通知epoll)。epoll只处理socket的读事件,负责完整收到Client一个请求,然后把请求交给磁盘IO。磁盘IO使用线程池,跟前面的区别在于,工作线程在读数据时使用sendfile,直接将磁盘数据发给对应的网络套接字,如果sendfile返回EAGAIN错误或者没发完数据,就更新请求,然后把请求重新放回队列。

分离的模型中DataServer也是用epoll管理socket描述符和与磁盘IO通信的管道描述符。epoll需要处理socket的读事件和写事件,负责从RelayServer收请求和向RelayServer发送数据。磁盘IO与前面的模型一致。

不分离模型和分离模型的对比结论:

1,不分离模型和分离模型在面对200左右并发连接数时性能上基本一致。测试表明:当请求读文件的大小较大时(超过256KB),无论OS对文件的缓存命中率大小,两种模型所能达到的网络吞吐量都差不多(20-30MB/S)。并且网络吞吐量随着请求文件大小的增大而增大,在这种情况下,磁盘IO严重滞后于网络IO和CPU的速度,所以网络吞吐量由磁盘IO的速度所决定。因为当读文件较大时,根据磁盘IO特点,磁盘吞吐量会较高,所以请求文件越大,网络吞吐量越好。当请求文件的大小较小时(如16KB和64KB),如果OS文件缓存的命中率较高,磁盘IO在整个系统中几乎没有影响,网络的吞吐量基本可以达到网卡的物理上限。但是,当OS文件缓存命中率很小时,由于磁盘IO很难高效地处理对小块数据的读,整个系统性能受制于磁盘IO,并且网络吞吐量和磁盘吞吐量都很低(4MB/S)。总得来看,无论使用哪种模型,磁盘IO都是瓶颈。

2,不分离模型的优缺点。优点:1,不分离模型的实现较为容易,可以使用sendfile等高效的系统调用。2,由于对每个并发连接不需要分配大量的内存缓冲区来缓存从磁盘读到的数据,对并发连接数的支持可以不受内存大小的限制,具有较好的伸缩性。缺点:可扩展性不足,比如对于客户端要求写文件就很难处理,而且如果加上复杂的协议分析,性能可能会大幅度下降。

3,分离模型的优缺点。优点:扩展性好,可以专门对磁盘IO进行优化,而不必考虑其对同时处理大量并发网络连接的影响;针对网络IO也可以添加复杂协议的分析,不必考虑对同时处理磁盘IO的影响。缺点:实现较为复杂,实现方案直接影响系统性能;用户接收数据的速率不平滑,有时会较长时间没有数据到达,而有时会瞬间到达很多数据,这样对于流媒体的应用,用户体验会很差。

三, 结论

针对我们的需求,决定使用分离模型。因为分离模型的扩展性很好,并且通过优化预计可以达到较高的效率。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数字乡村和智慧农业的数字化转型是当前农业发展的新趋势,旨在通过应用数字技术,实现农业全流程的再造和全生命周期的管理服务。中国政府高度重视这一领域的发展,提出“数字中国”和“乡村振兴”战略,以提升国家治理能力,推动城乡融合发展。 数字乡村的建设面临乡村治理、基础设施、产业链条和公共服务等方面的问题,需要分阶段实施《数字乡村发展战略纲要》来解决。农业数字化转型的需求包括满足市民对优质农产品的需求、解决产销对接问题、形成优质优价机制、提高农业劳动力素质、打破信息孤岛、提高农业政策服务的精准度和有效性,以及解决农业融资难的问题。 数字乡村建设的关键在于构建“1+3+4+1”工程,即以新技术、新要素、新商业、新农民、新文化、新农村为核心,推进数据融合,强化农业大数据的汇集功能。数字农业大数据解决方案以农业数字底图和数据资源为基础,通过可视化监管,实现区域农业的全面数字化管理。 数字农业大数据架构基于大数据、区块链、GIS和物联网技术,构建农业大数据中心、农业物联网平台和农村综合服务指挥决策平台三大基础平台。农业大数据中心汇聚各类涉农信息资源和业务数据,支持大数据应用。信息采集系统覆盖市、县、乡、村多级,形成高效的农业大数据信息采集体系。 农业物联网平台包括环境监测系统、视频监控系统、预警预报系统和智能控制系统,通过收集和监测数据,实现对农业环境和生产过程的智能化管理。综合服务指挥决策平台利用数据分析和GIS技术,为农业决策提供支持。 数字乡村建设包括三大服务平台:治理服务平台、民生服务平台和产业服务平台。治理服务平台通过大数据和AI技术,实现乡村治理的数字化;民生服务平台利用互联网技术,提供各类民生服务;产业服务平台融合政企关系,支持农业产业发展。 数字乡村的应用场景广泛,包括农业生产过程、农产品流通、农业管理和农村社会服务。农业生产管理系统利用AIoT技术,实现农业生产的标准化和智能化。农产品智慧流通管理系统和溯源管理系统提高流通效率和产品追溯能力。智慧农业管理通过互联网+农业,提升农业管理的科学性和效率。农村社会服务则通过数字化手段,提高农村地区的公共服务水平。 总体而言,数字乡村和智慧农业的建设,不仅能够提升农业生产效率和管理水平,还能够促进农村地区的社会经济发展,实现城乡融合发展,是推动中国农业现代化的重要途径。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值