单机存储系统

最新推荐文章于 2022-12-09 17:00:47 发布

BlitzSkies

最新推荐文章于 2022-12-09 17:00:47 发布

阅读量2.2k

点赞数

分类专栏：大规模分布式存储系统

本文链接：https://blog.csdn.net/BlitzSkies/article/details/44422319

版权

大规模分布式存储系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先，我们下个定义，什么是单机存储引擎？

单机存储引擎就是哈希表、B树等数据结构在机械磁盘、SSD等持久化介质上的实现。

单机存储系统的理论来源于关系数据库，关系数据库中，事务（一组操作）的ACID特征要牢记（Atomicity, Consistency, Isolation, Durability）。

1. 硬件基础

这些是最底层的硬件基础。

（1）CPU架构

经典的多CPU架构为Symmetric Multi-Processing（SMP，对称多处理结构）如下图：

由于多CPU对前端总线的竞争，SMP的扩展能力非常有限。为了提高扩展性，现在主流服务器的架构一般为Non-Uniform Memory Access(NUMA，非一致存储访问)，每个NUMA节点是一个SMP架构，如下图：

（2）IO总线

北桥快：与CPU、内存模块、PCI-E设备（高端SSD设备）都挂在北桥上；
南桥慢：网卡、硬盘、中低端SSD挂在南桥上；

南北桥通过Direct Media Interface（DMI）相连，看下图：

（3）网络拓扑

传统的数据中心网络分为三层：Edge（接入层）, Aggregation（汇聚层）, Core（核心层），如下图：

2008年，Google将网络改造为扁平化拓扑结构，即三级CLOS系统。

同一个数据中心内部传输时延比较小，在1ms之内；两个数据中心之间的传输延时较大，比如北京到杭州，时延取决于距离除以光速。

（4）性能参数

常见硬件性能如下（选取了几个有代表性的）：

访问一次L1 Cache：0.5ns；
访问一次内存：100ns；
从内存读取1M数据：0.25ms
机房内网络来回：0.5ms
访问一次SATA磁盘（寻道）：10ms
访问一次SSD：0.1~0.2ms

由上可见，内存以上是ns级的，磁盘及网络是ms级的。

存储系统的性能瓶颈主要在于“磁盘随机读写”，所以，设计存储引擎的时候，会针对磁盘特性做很多处理，比如将随机写转化为顺序写，通过缓存减少磁盘随机读等。

2. 单机存储引擎

存储系统的基本功能包括：增删改查，读取操作又分为随机读取和顺序读取，下面看典型的三种存储引擎。

（1）哈希存储引擎（比如Bitcast）

读写操作支持随机读取，由于是key-value映射，所以不支持顺序读取，观察下图的具体机制：

由于记录删除或修改后，原来的数据会成为垃圾数据，Bitcask用compaction（合并）操作实现垃圾回收，即对所有老数据文件扫描，对同一个key的多个操作保留最新的一个，所以每次compaction之后新数据文件就不会有冗余数据了。

任何系统都要考虑断电恢复的过程，但如果扫描一遍所有数据来重建哈希表需要很长时间，所以，bitcask用一个hint file（索引文件），将哈希表转储到磁盘，每次compaction会产生新的hint file，这样重启恢复只需要扫描hint file就可以确定所有具体value的位置，重建hashtable了。

（2）B树存储引擎

不仅支持随机读写，还支持范围顺序扫描，如MySQL InnoDB，组织成B+树。B+树的根节点常驻内存。修改操作需要先写提交日志，再修改内存中的B+树，磁盘访问次数为h-1次，时间复杂度为O(h)，如下图：

我们下面讨论一下缓冲区管理器，它的关键在于替换策略（常见于操作系统），常见算法有如下两种：

LRU（Least Recently Used）：最近最少访问；

LIRS（Low Inter-reference Recently Set）：现代数据库一般用这个，将缓冲池分为两级，数据首先进入第一级，如果数据在较短时间内被访问两次以上，那么它就是热点数据，就会进入第二级，每一级的内部还是采用LRU。

Oracle中的Touch Count与MySQL InnoDB的替换算法都是类似的分级思想，此类方法在大多数情况下表现良好，但有一个问题：假如做了一次全表扫描，将导致缓冲区大量页面被替换，这些被替换的页面可能包含很多快被访问到的热点页面，所以这种全表扫描的出现会污染缓冲区。

InnoDB的具体解决办法为：将LRU链表分为两部分new sublist和old sublist。默认new占5/8，old占3/8，页面首先会进入old sublist，要求页面停留时间超过一定时间（比如1s），才有可能被转入new sublist。这样做的话，当遇到全表扫描时，由于数据页面在old sublist中停留时间很短，所以不会被专移到new sublist中，有效避免了new sublist中的热点数据被替换出去的情况。

（3）LSM存储引擎

Log Structured Merge Tree，其思想是，将修改保存在内存中，达到一定量就转储磁盘。

读取时需要合并磁盘中的历史数据与内存中的修改数据，优势在于有效规避了磁盘随机写入的问题（每次写都要寻道等耗时操作），但读取时需要访问较多的磁盘文件。

LevelDB的LSM存储引擎结构如下：

我们看上图，当数据写入时，首先写入MemTable，当MemTable达到上限时，会将其冻结为不可变MemTable，等待后台线程将不可变MemTable利用“compaction”操作转储到磁盘中，形成SSTable；每个层级有多个SSTable，按照记录的主键排序。

对于LevelDB来说，写入容易，读取困难，因为每次读取都需要从老到新读取每个层级的SSTable文件以及内存中的MemTable，当然还有具体的优化措施，这在后面会提到。

3. 数据模型

有一个很好的比喻，如果存储引擎是存储系统的发动机，那么，数据模型就是存储系统的外壳。

主要有三种数据模型：文件模型，关系模型，以及随着NoSQL技术流行起来的key-value模型。

文件模型：记住目录树，像UNIX文件系统中的文件组织；
关系模型：每个关系是一个表，常见的SQL属于这类；
key-value模型：被大量NoSQL系统使用，但key-value模型过于简单，所以NoSQL系统中使用比较广泛的模型是表格模型，这种表格弱化了关系模型中的多表关联，典型的是Google Bigtable，后续介绍。

那么，什么是NoSQL？

SQL（Structured Query Language），在数据规模和并发量越来越大的情况先，显得力不从心；NoSQL系统弱化设计范式、弱化一致性要求、提高可扩展性，一定程度上解决了海量数据和高并发的问题。

看关系数据库在海量数据场景下的挑战：

事务：ACID特性在分布式系统中要用到两段提交协议，这个协议性能低，且不能容忍服务器故障，所以难以应用于海量数据场景；
联表：海量数据中，使用数据冗余来弱化联表，实践证明这种做法收益远大于成本；
性能：关系数据库采用B树存储引擎，更新性能不如LSM树这样的存储引擎；对于增删改查性能不如专门定制的key-value系统。

NoSQL系统目前缺少统一标准，各个系统使用的方法不同，切换成本高，运维复杂。

从技术的角度看，不必纠结与二者区别，应借鉴两者优势，着重理解关系数据库的原理以及NoSQL系统的高可扩展性。

4. 事务的并发控制

ACID特性我们都知道，多个事务并发执行时，可串行化的隔离等级是比较理想的，但业界为性能考虑定义了多种隔离等级。

一般事务并发通过锁机制来实现，当然这里要面对的是死锁的问题。

在互联网业务中，读事务往往高于写事务，所以为提高读事务性能，可以采用COW（Copy-On-Write）来避免写事务阻塞读事务；

下面我们介绍COW下的B+树：

如上图，COW中，读操作不用加锁，极大提高了读取性能，执行写操作的步骤如下：

拷贝：从叶节点到要修改的根节点数据都copy出来；
修改：修改copy出的内容；
提交：原子性的切换根节点Root的指针，注意这个有意思的细节，只需要切换根节点的指针即可。

5. 故障恢复

当然用到log（日志）了，操作有undo回滚和redo重做，步骤都是先写日志再操作，无可厚非。

日志具体的优化措施，比如说成组提交，比如说checkpoint与快照，等等，我们就不细讨论了。

6. 数据压缩

像Huffman，Bigtable中的BMDiff、Zippy（LZ系列）等。自从以色列人Jacob Ziv和Abraham Lempel发表了《A Universal Algorithm for Sequential Date Compression》，从此，LZ系列压缩算法几乎垄断了通用无损压缩领域。

压缩算法的核心是找重复数据，Huffman编码通过统计字符出现的频率来计算最优前缀编码；

LZ系列压缩算法是基于字典的压缩算法，比如要压缩一篇文章，我们只需保存每个单词在字典中“出现的页码与位置”就可以了。LZ系列算法是一种动态创建字典的方法，压缩过程中动态创建字典并保存在压缩信息里面。

LZ系列压缩算法的如下几个问题值得思考：