【译】Linux不同的IO访问方式中,Scylla的选择和依据

【原文】http://www.scylladb.com/2017/10/05/io-access-methods-scylla/
【译文】
大多数服务应用开发者考虑IO时会重点考虑网络IO,因为他们访问的主要资源都是基于网络的,如数据库、对象存储或其他微服务。而数据库开发者则必须考虑文件IO。本文描述了候选方式和如何权衡,以及为什么Scylla选择异步direct IO(AIO/DIO)作为访问访问。

一、访问文件的候选方式

一般Linux服务器有四种访问文件的方式:read/write, mmap, Direct I/O (DIO) read/write, 和异步直接direct I/O (AIO/DIO).

1.1 传统read/write

应用已久的传统方式是使用read和write两个系统调用。在现代的实现中,系统调用read(或其变种pread,readv,preadv等)访问内核,读取一段文件,拷贝数据至调用的进程地址空间。如果所有要访问的数据都在页缓存中,内核会直接拷贝,并立即返回;否则,它需要调度磁盘以读取所需的数据到页缓存中,并阻塞调用线程,当数据可用时,它会恢复线程,并拷贝数据。另一方面,系统调用write会拷贝数据到页缓存中,内核会在某个时间将页缓存写回到磁盘。

img_167f97edb7e4aac112fcde13b169284e.png
传统read/write

1.2 Mmap

一种更现代的替代方案是,以内存映射的方式,使用mmap系统调用,将文件映射到应用程序地址空间中。该操作的效果是,一段地址空间直接对应包含文件数据的页缓存。这个准备步骤完成后,应用程序可以使用进程内存读写指令来访问文件数据。如果请求的数据碰巧在缓存中,内核完全被旁路,读写以内存级速度完成。如果缓存没有需要的数据,则会触发页错误,内核将活动线程变成休眠状态,因为此时该线程需要去读取数据到内存页中。当数据最终可用时,内存管理器受程序控制,最新读取到数据可访问时,相应线程会被唤醒。

img_03b16b70ca02ab5e791980f101ad6e22.png
mmap

1.3 Direct IO(DIO)

传统的read/write和mmap都需要内核页缓存和内核调度IO。当应用程序希望自己调度IO时(原因稍后解释),它可以使用direct IO。这需要使用标志O_DIRECT来打开文件;进一步的工作是使用通用的读写系统调用,但它们的行为现在会有变化;不访问内存后,会该用直接访问磁盘,这意味着调用线程会被无条件的置为休眠状态。而且磁盘控制器会直接拷贝数据到用户空间,即旁路内核。

img_a950a93bc4514c61a2adae2cc182e8e4.png
Direct IO

1.4 异步Direct IO(AIO/DIO)

异步Direct IO相对于Direct IO有改进,其行为相似,但不阻塞调用线程。应用程序线程使用io_submit系统调用调度direct IO操作,但该线程并不会被阻塞;IO操作与线程执行同时进行。使用独立的系统调用io_getevents来等待结果,并在IO操作完成后收集结果。像DIO一样,内核页缓存也被旁路,磁盘控制器负责拷贝数据到用户空间。

img_9afa0611df29183f5d33e9f264ba60d5.png
异步Direct IO

二、理解取舍平衡

不同访问方法拥有一些相同的特征,也有一些差异。表1总结来这些特征,具体见下表。

CharacteristicR/WmmapDIOAIO/DIO
Cache controlkernelkerneluseruser
Copyingyesnonono
MMU activitylowhighnonenone
I/O schedulingkernelkernelmixeduser
Thread schedulingkernelkernelkerneluser
I/O alignmentautomaticautomaticmanualmanual
Application complexitylowlowmoderatehigh

2.1 缓存控制

对于read/write和mmap,缓存是内核的职责。大部分系统内存被交给页缓存。内核决定在内存不足时哪个页被淘汰,哪些页需要回写至磁盘,哪些需要预读。应用程序可以使用madvise和fadvise来为内核提供一些指示。

由内核控制缓存的最大优势在于,内核开发者们已经投入几十年和巨大精力以优化缓存算法。这些算法已经被成千上万的不同应用程序使用,且整体而已都是很有效的。然而不足是,这些算法是面向通用目标,没有针对具体应用而优化。内核必须猜测应用程序下一步的动作,既是应用程序知道完全不同,它也没有办法帮助内核猜的更准确。结果是页被错误的淘汰,IO以错误的顺序调度,或者预读的数据在近期不会被访问。

2.2 拷贝和MMU活动

mmap方式的一个好处是,如果数据在内存中,内核会被彻底跳过。内核不需要从内核空间拷贝数据到用户空间或反向拷贝,这样就能减少处理器周期的消耗。这还会改善负载,最大化利用缓存(例如,当存储大小比RAM大小接近1:1)。

当数据不在缓存中,mmap会表现较差。当存储大小比RAM大小明显大于1:1时,这种现象尤会发生。每个载入缓存的页都会引起另一页的淘汰。这些页必须插入页表或从中移除,内核必须扫描页表来找到非活动的页,并把它们作为待淘汰的候选。另外,mmap需要为页表分配内存。在x86处理器上,这会需要0.2%的映射文件大小的内存。这看起来很小,但如果应用程序使用的存储与内存的比达到100:1时,结果是,20%的内存被用来存储页表(0.2% * 100)。

2.3 IO调度

内核控制缓存(mmap和read/write)的问题之一是,应用程序失去对IO调度的控制。内核选择它任何合适的数据块,调度对其的读写。这会导致以下的问题:

  • 写风暴:当内核规划大规模写时,磁盘会忙一段时间,进而导致读延迟。
  • 内核不能区分重要和不重要的IO。后台IO任务会挤垮前台任务,导致它们的延迟。

借助绕开内核页缓存,应用程序会承担IO调度的压力。这并不意味着问题被解决,但意味着问题可以被解决,只要投入足够的重视和努力。

使用Direct IO时,每个线程控制何时执行IO。而内核控制线程运行,以便内核和应用程序共同承担IO工作。使用AIO/DIO,应用程序完成控制何时执行IO。

2.4 线程调度

IO密集型应用程序使用mmap或read/write时不能猜出其缓存的命中率。因此,必须运行大量线程(显著大于所运行的机器的核数)。使线程过少时,它们可能都在等待磁盘运动,处理器利用率会很低。由于每个线程都需要等待磁盘IO,运行的线程数大致为存储子系统并发数乘以一个小系数,以保持磁盘能满负荷运转。如果缓存命中率很高时,这些大数量的线程彼此之间会竞争有限的CPU核数。

使用direct IO,这个问题会得到一定缓和,因为应用程序知道何时线程被IO阻塞、何时能运行,所以应用程序可以根据运行环境,调整运行的线程数。

使用AIO/DIO,应用程序完全控制运行的线程和等待的IO(二者完全隔离),所以它能轻松调整内存、磁盘的使用。

2.5 IO对齐

存储设备属性之一是块尺寸,所有IO必须以块大小的整数倍运行,通常是512或4096字节。使用read/write或mmap时,内核自动对齐;小规模读写会被内核扩展至整个块。
使用DIO时,由应用程序来对齐块。这带来了一定的复杂度,但也提供了一个好处:当512字节对齐就足够时,内核通常需要4096字节对齐,但用户应用程序使用DIO就可以用512字节对齐的方式读取,从而节省小对象的传输带宽。

2.6 应用程序复杂度

前面讨论IO密集型应用程序优先选择AIO/DIO,这个方式伴随着一个显著的成本:复杂度。为应用程序设置缓存管理职责,意味着它能比内核更好的做出选择,做出这些选择需要更少的成本。然而,这些算法需要编写和测试。使用异步IO需要应用程序支持回调方式、协程、或其他相似的方法,经常需要降低很多可用库的复用性。

三、Scylla和AIO/DIO

对于Scylla,我们选择更高性能的选项,AIO/DIO。为了隔离一些涉及的复杂度,我们写了Seastar,这是一个面向IO密集型应用的高性能框架。Seastar抽象了执行AIO的细节,为网络、磁盘、多核通讯提供了通用API。它也提供了回调、协程风格的声明管理,以适应不同的使用用例。

不同领域的Scylla关注不同IO使用方式:

  • 压缩使用应用级预读和后写以提高吞吐量,但绕开应用级缓存是缘于设定其低命中率,同时避免冷数据的冲击)。
  • 查询使用应用控制预读和应用级缓存。应用控预读阻止提前预读,是由于我们提前知道数据在磁盘上的边界。应用级缓存使我们不只可以缓存从磁盘读取的数据,也可以将多个文件的数据合并成一个缓存项。
  • 小规模读按512字节对齐,以减少总线数据传输和延迟。
  • Seastar IO调度器允许我们动态控制压缩和查询的IO率,以满足用户服务等级协议SLA。
  • 独立的IO调度类使commitlog获得需要的带宽,而不会被读抢占。

如果应用直接驱动NVMe以绕过内核,那么AIO/DIO将会是一个好的起点。这也是未来Seastar的特性。

四、结论

我们介绍了在Linux上四种不同类型的磁盘IO的方法,及之间不同的取舍与平衡。使用传统read/write很容易上手,使用mmap会获得内存级性能,但为了获取顶级性能和控制,我们为Scylla选择异步IO。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Github下载地址:https://github.com/XLAccount/MiaoBo 项目详解地址:http://www.code4app.com/blog-843201-350.html 快速集成RTMP的视频推流教程:http://www.code4app.com/blog-843201-315.html ffmpeg常用命令操作:http://www.code4app.com/blog-843201-326.html #关于IJKMediaFramework/IJKMediaFramework.h找不到的问题,下载后直接拉到项目即可 下载地址:https://pan.baidu.com/s/1boPOomN 密码::9yd8 #BUG修复: 解决登录程序偶尔崩溃,修复轮播图片和页面控制器叠加等问题,修复新浪授权登录 (2016.9.7) 解决程序运行偶尔崩溃问题,解决连续下拉刷新崩溃问题,优化代码 (2016.9.8) 优化直播页面,减少不必要的性能消耗,增加用户体验 (2016.9.11) 适配5s以上的机型除了6sPlus和6Plus延迟较大外,其余延迟都较小,网速好的话可以忽略不计 (2016.9.12) 新版本极大优化程序性能,修复关注数据异常等小问题,重新布局热门页面,减少因反复加载带来的性能消耗 (2016.9.13) 增加个人心页面,采用下拉放大图片 ➕ 波纹效果 (2016.9.14) ![image text](https://github.com/XLAccount/ALLGIFS/blob/master/psb.gif) 展示图片 ![image](https://github.com/XLAccount/ALLGIFS/blob/master/psb-1.gif) 展示图片 ![image text](https://github.com/XLAccount/ALLGIFS/blob/master/psb-2.gif) 展示图片 ![image text](https://github.com/XLAccount/ALLGIFS/blob/master/psb-3.gif) 展示图片 感谢大神Monkey_ALin http://www.jianshu.com/users/9723687edfb5/latest_articles 的demo支持
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值