有关IO和性能深度理解-2

早日实现财富自由心灵自由

已于 2024-09-10 09:20:50 修改

阅读量931

点赞数 28

文章标签：大数据 IO 性能学习

于 2024-09-10 09:19:19 首次发布

本文链接：https://blog.csdn.net/lwexin/article/details/142083771

版权

大IO和小IO

我们通常把<=16KB的I/O认为是小I/O，而>=32KB的I/O认为是大I/O。就单个I/O来讲，大I/O从微观的角度相比小I/O会需要更多处理资源，不过对于智能存储系统来说，会尽可能把I/O整理为顺序的，以单个操作执行，如此依赖，将多个小I/O整理成单个大I/O处理后，反而会更快。I/O的大小依然取决于应用程序本身，了解I/O的大小，影响到后期对缓存、RAID类型、LUN的一些属性的调优。

如何区分大IO和小IO

在做性能评估和讨论IO模型时，经常会遇到是大IO还是小IO的问题。我们通常把<=16KB的IO认为是小IO（典型的如512bytes、4KB），而>=32KB的IO认为是大IO（典型的如256KB、1MB），处于16K和32K间的IO也认为是小IO。例如，典型的OLTP数据业务是小IO，而数据仓库业务是大IO。典型业务场景的IO大小，以下是一些典型业务场景的IO大小。

IO大小对性能的影响

IO的大小取决于上层应用程序本身。对性能而言，小IO一般用IOPS来衡量，大IO一般用带宽来衡量。例如我们熟悉的SPC-1，主要衡量存储系统在随机小IO负荷下的IOPS，而SPC-2则主要衡量在各种高负荷连续读写应用场合下存储系统的带宽。

就单个IO而言，大IO从微观角度相比小IO会需要更多的处理资源。对于随机IO而言，随着随机IO块大小的增加，IOPS会随之降低。例如，当随机IO大小大于16KB时，机械硬盘的IOPS会呈线性下降。因此，我们通常SPC-1测试的IOPS值很高，但因为用户业务模型不同，IO大小不同，性能值也是变化的。

不过对于智能存储系统来说，会尽可能通过排序、合并、填充等方法对IO进行整合，将多个小IO组合成单个大IO。例如，典型的Web Server Log业务，一般是8KB大小的顺序小IO，在分条大小设置为128KB的存储设备上，最终会将16个8KB大小的小IO合并成一个128KB的大IO下发到硬盘上。在这种情况下，对比处理多个小IO，处理单个大IO的速度更快、开销更小。

IO的大小，影响到磁盘选型，缓存、RAID类型、LUN的一些属性和策略的调优。例如，随机小IO的场景，由于SSD盘具有快速随机读写的特性，选用SSD盘对比SAS盘能够大幅提升性能；但如果是随机大IO，选用带宽性能相当、价钱便宜的SAS盘更有优势。

缓存Cache对IO性能影响

数据的位置分布影响到后期对二级缓存或存储分层技术的应用，因为这些技术都会根据I/O的位置分布来判断是否将I/O放置到缓存或快速的层级。位置引用是指那些被频繁的存储位置，我们通常认为最新创建的数据以及最近被访问过的数据，它们周围的数据也同时被访问的可能性会比较大。因此，了解应用程序的I/O位置特性，有助于应用正确的性能优化技术。

Cache的加速原理介绍

Cache是存储中最重要的模块之一，对于IOPS性能而言，CACHE的主要作用是加速。

Cache对写业务加速

1、回写情况下，主机侧下到阵列侧的数据只需要下到CACHE处而不需要真正写到磁盘即可以返回通知主机写完成，当写CACHE的数据积累到一定程度（水位），阵列才把数据刷到磁盘。由此可以将速度较差的“同步单个写”转为“异步批量写”，在通常情况下，回写的性能约是透写性能的两倍以上。

2、写命中。回写条件下，新写到CACHE中的数据发现在CACHE中已经有准备写到相同地址但还没有刷盘的数据。在这种情况下，只需要将新写入的数据下盘即可。

3、写合并。例如小IO下到CACHE中，CACHE会尽可能对IO进行排序与合并，将多个小IO合成单个大IO再下盘。

Cache对读业务加速

对于读业务，CACHE加速主要体现在读命中。例如智能预取策略，CACHE会主动识别IO流的特征，如果发现是顺序IO流，CACHE会在下盘读IO的同时，主动读取相邻区域的大块数据放到CACHE中。当顺序IO下发到CACHE时，发现CACHE中已存放了需要的数据，则直接将此数据返回即可，不需要再下盘读。其中的一个特例是“全命中”。在全命中条件下，业务需要读取的数据已经全部保存到CACHE中，完全不需要再下盘处理，即所有IO到CACHE层就返回了，路径和时延最短。全命中读的IOPS值，往往是一款存储产品能够提供的最大IOPS值。