磁盘(机械硬盘)经典结构:
1. 磁盘调度
磁盘、内存速度差距大,而磁盘调度可以尽可能在现有条件下提高磁盘存储子系统的性能。
1.1 磁盘性能参数
寻道时间(seek time)
寻道时间(seek time):将磁头臂移到指定磁道所需时间
旋转延迟(relation delay)
旋转延迟(relation delay):磁头到达扇区开始位置所需时间。即将磁盘的待访问地址区旋转到 读/写磁头 可访问的位置所需时间
传输时间(transfer time)
传输时间(transfer time):传输数据所需时间
向/从 磁盘传送数据时间取决于 磁盘转速:
假设,T表示传输时间,b表示要传送的字节数,N表示一个磁道中的字节数,r表示转速(r/s),则:
T
=
b
r
N
T=\frac{b}{rN}
T=rNb
总存取时间(access Time)
总存取时间(access Time):寻道时间 + 旋转延迟 + 传输时间
若使用Ta表示总平均存取时间时间,Ts表示平均寻道时间,1/2r表示平均旋转延迟,则:
T
a
=
T
s
+
1
2
r
+
b
r
N
T_{a}=T_{s}+\frac{1}{2r}+\frac{b}{rN}
Ta=Ts+2r1+rNb
※ 时序比较
假设,文件占据了5个相邻磁道中的所有扇区(5个磁道 × 500个扇区/磁道 = 2500个扇区),即顺序组织。
读取第一个磁道时间如下:
平均寻道(4ms)+ 旋转延迟(4ms)+ 读500个扇区(8ms)= 16ms
假设,无需读取其余磁道,每个磁道能在 4 + 8 = 12ms 内读入,则读取整个文件:
总时间 = 16 + (4 + 12) = 64ms = 0.064s
现在随机访问(非顺序访问),对每个扇区:
平均寻道(4ms)+ 旋转延迟(4ms)+ 读1个扇区(0.16ms)= 8.016ms
总时间 = 2500 × 8.016 = 20040ms = 20.04s
显然,读取顺序对I/O性能有很大影响。在文件访问需要读/写多个扇区,我们可以控制存储方法。
1.2 磁盘调度策略
要提高磁盘调度策略,需要尽可能减少寻道时间,产生了不同的磁盘调度策略。
1.2.1 根据请求者选择
随机(Random)
随机调度(random scheduling):随机访问磁道,性能最差,多用于评估其他调度策略。
特点:用于分析、模拟
先进先出(FIFO)
先进先出(FIFO):按顺序梳理队列中的项目。
特点:最公平的调度
优先级(PRI)
优先级(PRI):基于作业优先级调度磁盘,可能会导致短作业迅速通过,而长作业滞留。
特点:在磁盘队列管理之外控制
后进先出 (LIFO)
后进先出 (LIFO):优先处理最新请求。
因事务处理顺序读取文件,将设备分配给最后到来的用户,减少磁臂运动,提高吞吐量,缩短队列长度。
特点:局部性最好,资源利用率最高
1.2.2 根据被请求者调度
最短服务优先(SSTF)
最短服务优先(SSTF):选择使磁臂从当前位置开始移动最少的磁盘I/O请求。
特点:利用率高、队列小
SCAN
SCAN(扫描) 算法,可以避免饥饿情况,又称电梯算法。
SCAN(扫描) :磁臂沿单一方向移动,在途中满足所偶为满足的请求,直至它到达这个方向上的最后一个磁道,或该方向上没有其他请求未知。
LOOK策略:SCAN后,反转服务方向,反方向扫描,同样按顺序完成所有请求。
特点:服务分布比较好
C-SCAN
C-SCAN(循环扫描):把扫描限定在一个方向上,当访问到某个方向的最后一个磁道,磁臂返回反方向末端磁道,再次开始扫描,减少了新请求的最大延迟。
特点:服务变化较低
N步 SCAN
N步 SCAN:将磁盘请求队列分成长度为N的几个子队列,每次使用SCAN处理一个子队列。处理某个队列时,新请求进入其他队列。
特点:服务保证
FSCAN
FSCAN:使用两个子队列的策略。扫描开始,所有请求置于一个队列。另一个队列为空,用于接收扫描过程中的新请求。
特点:负载敏感
2. RAID
磁盘存储器设计人员意识到,如果使用一个组件对性能的影响有限,那么并行使用多个组件(增加冗余度)可能会获得额外的性能提升。
这种思想很快形成了一种方案,被称为 独立磁盘冗余阵列 (RAID, Redundant Array of Independent Disks, 早期又称 廉价磁盘冗余阵列 )。即:使用多个小容量驱动器,代替大容量驱动器,并通过从多个驱动器访问数据的方式,提高I/O、增加容量。
RAID方案包括很多级别,其中被认可的级别有0~6,共7个级别,它们之间并没有递进关系,但表明了不同的设计体系结构。它们拥有三大共性:
- "单体" 结构 :RAID是物理磁盘驱动器组,但OS视其为单体结构
- 条带化 :数据分布在物理驱动器阵列中
- 数据可恢复性 :冗余磁盘容量保存奇偶校验信息
类别 | 级别 | 说明 | 磁盘请求 | 数据可用性 | 大I/O数据量传送能力 | 小I/O请求率 |
---|---|---|---|---|---|---|
条带化 | 0 | 非冗余 | N | 低于单个磁盘 | 很高 | 读:很高 写:很高 |
镜像 | 1 | 被镜像 | 2N | 高于RAID 2、3、4、5 低于RAID 6 | 读:高于单个磁盘 写:与单个磁盘相近 | 读:最快为单个磁盘2倍 写:与单个磁盘相近 |
并行访问 | 2 | 通过汉明码实现冗余 | N + m | 明显高于单个磁盘 与 RAID 3、4、5 可比 | 所有列出方案最高 | 约为单个磁盘两倍 |
3 | 交错位奇偶校验 | N + 1 | 明显高于单个磁盘 与 RAID 2、4、5 可比 | 所有列出方案最高 | 约为单个磁盘两倍 | |
独立访问 | 4 | 交错块奇偶校验 | N + 1 | 明显高于单个磁盘 与 RAID 2、3、5 可比 | 读:与 RAID 0 相近 写:明显慢于单个磁盘 | 读:与 RAID 0 相近 写:明显慢于单个磁盘 |
5 | 交错块分布奇偶校验 | N + 2 | 明显高于单个磁盘 与 RAID 2、3、4 可比 | 读:与 RAID 0 相近 写:慢于单个磁盘 | 读:与 RAID 0 相近 写:慢于单个磁盘 | |
6 | 交错块双重分布奇偶校验 | N + 3 | 所有列出方案最高 | 读:与 RAID 0 相近 写:慢于 RAID 5 | 读:与 RAID 0 相近 写:慢于 RAID 5 |
2.1 RAID 0
RAID 0 和 所有 RAID 级别一样,并不是简单地把数据分布在磁盘阵列中:数据呈条状分布在所有可用磁盘中。
磁盘被划分为多个条带,这个条带可以是一个物理块、扇区。这些条带被循环映射到连续的阵列成员。
在一个 n 磁盘阵列中,最初的 n 个逻辑条带保存在 n 个磁盘的每个磁盘上的第一个条带中,从而形成了第一条条带。这样,若访问多个逻辑上连续的条带,可实现并行处理,大大减少了I/O传输时间。
实现高数据传送能力
- 确保 主机存储器(内存)、单个磁盘驱动器之间的整个路径(内部控制总线、主机系统I/O总线、I/O适配器、主机存储器总线)的高效传输。
- 应用程序必须产生能够有效使用磁盘阵列的I/O请求。
实现高速I/O请求率
- 对于少量数据的单独I/O请求,I/O时间由 寻道时间、旋转延迟 决定。
- 对于事务处理环境中,每秒可能由上百条I/O请求。磁盘阵列可以在多个磁盘中平衡I/O负载来提供更高速率。
2.2 RAID 1
RAID 2 ~ 6 通过某种形式的奇偶计算实现冗余,而 RAID 1 通过临时复制所有数据实现冗余。
RAID 1 较好特征:
- 读请求可由包含被请求数据的任何一个磁盘提供服务
- 写请求对两个相应条带进行更新,但可并行完
- 恢复简单。当一个驱动器失效,可从另一个驱动器访问数据
RAID 1 成本较高,它需要 两倍于 逻辑磁盘空间 的物理磁盘空间。在面向事务处理的环境中,读请求 RAID 1 性能 接近 RAID 0 两倍,写请求并无太大优势。
可以按照这种方式操作,因同步需要时间,所以性能接近两倍。
2.3 RAID 2
RAID 2 采用并行访问技术 + 条带化技术,所有磁盘成员参与某个I/O请求执行,条带通常仅有 1个字节 / 1个字。
被请求数据时,相关错误校正码被送到阵列控制器,如果有一位错误,控制器可以立即识别并改正这个错误,使得读操作的存取时间不会减慢。写操作必须同时访问数据磁盘、奇偶校验磁盘。
2.4 RAID 3
RAID 3 采用并行访问技术 + 条带化技术,所有磁盘成员参与某个I/O请求执行,条带通常仅有 1个字节 / 1个字。RAID 3 相比于 RAID 2 更加廉价,无论磁盘阵列多大,仅需一个冗余磁盘。
冗余性 - 奇偶校验
数据重建流程:考虑5个驱动器阵列,其中 X0 ~ X3 包含数据,X4位奇偶校验磁盘。
第 i 位奇偶校验计算:
X
4
(
i
)
=
X
3
(
i
)
⊕
X
2
(
i
)
⊕
X
1
(
i
)
⊕
X
0
(
i
)
X4(i)=X3(i)⊕X2(i)⊕X1(i)⊕X0(i)
X4(i)=X3(i)⊕X2(i)⊕X1(i)⊕X0(i)
式中,⊕表示异或操作。
驱动器1失效,则上式两边加上X4(i)⊕X1(i)
,得:
X
1
(
i
)
=
X
4
(
i
)
⊕
X
3
(
i
)
⊕
X
2
(
i
)
⊕
X
0
(
i
)
X1(i)=X4(i)⊕X3(i)⊕X2(i)⊕X0(i)
X1(i)=X4(i)⊕X3(i)⊕X2(i)⊕X0(i)
由此,X1中数据内容可由阵列中其余磁盘相应条带内容重新生成(原理适用于RAID 3 ~ 6),数据丢失后通过异或得到数据,这种模式称为 缩减模式(reduced mode)
性能 :RAID 3 因条带小,数据传送率高。但面对事务处理时,效果不佳。
2.5 RAID 4
RAID 4 采用独立访问技术 + 条带化技术,每个磁盘成员都单独运转,因此不同I/O能够并行执行。
独立访问阵列 适合 需要较高I/O请求速度的应用,不适合需要较高数据传送率的应用。
2.6 RAID 5
RAID 5 采用独立访问技术 + 条带化技术,并将奇偶校验条带分布在所有磁盘中(循环分配),避免了 RAID 4 奇偶校验磁盘的潜在 I/O 瓶颈问题。
2.7 RAID 6
RAID 6 使用独立访问技术 + 条带化技术,并采用两种不同的奇偶校验计算,因此需要 N+2 个磁盘组成。
3. 磁盘高速缓存
类似于 位于内存、处理器间的 高速缓冲存储器(cache memory),磁盘高速缓存是内存中为磁盘扇区设置的一个缓冲区,它包含有磁盘部分扇区副本。
两种算法:
- 最近最少使用算法(LRU)
- 最不常使用页面置换算法(Least Frequently Used, LFU)
一种基于频率的置换方案方案:将栈分为三个区:新区、中间区、老区。位于新区中的快访问计数器不会增加,只有老区符合置换条件。中间区使得比较频繁访问的块有机会在进入老区前,增加自己的访问计数器,以至于不会很快被置换。
用两种不同的奇偶校验计算,因此需要 N+2 个磁盘组成。