HBase数据结构

最新推荐文章于 2024-05-21 05:00:00 发布

it噩梦

最新推荐文章于 2024-05-21 05:00:00 发布

阅读量136

点赞数

分类专栏：中间件文章标签：数据结构 hbase 链表

本文链接：https://blog.csdn.net/qq_37362891/article/details/122770257

版权

中间件专栏收录该内容

40 篇文章 4 订阅

订阅专栏

在这里插入图片描述

在分析HBase的LSM合并树之前，我们需要来了解一些常用的数据结构知识。

跳表

在这里插入图片描述
上图是一个有序链表，我们要检索一个数据就挨个遍历。如果想要再提升查询效率，可以变种为以下结构：

在这里插入图片描述
现在，我们要查询11，可以跳着来查询，从而加快查询速度。

常见树结构

二叉搜索树（Binary Search Tree）

什么是二叉搜索树？

在这里插入图片描述

树的高度、深度、层数

深度
节点的深度是根节点到这个节点所经历的边的个数，深度是从上往下数的
高度
节点的高度是该节点到叶子节点的最长路径（边数），高度是从下往上数的
层数
根节点为第一层，往下依次递增

上图：

节点12的深度为0，高度为4，在第1层
节点15的深度为2，高度为2，在第3层

二叉搜索树的特点

树中的每个节点，它的左子树中所有关键字值小于该节点关键字值，右子树中所有关键字值大于该节点关键字值

二叉搜索树的查询方式

首先和根节点进行比较，如果等于根节点，则返回
如果小于根节点，则在根节点的左子树进行查找
如果大于根节点，则在根节点的右子树进行查找

二叉搜索树的缺点

因为二叉搜索树是一种二叉树，每个节点只能有两个子节点，但有较多节点时，整棵树的高度会比较大，树的高度越大，搜索的性能开销也就越大

平衡二叉树（Balance Binary Tree）

简介

平衡二叉树也称为AVL数
它是一颗空数，或者它的任意节点左右两个子树的高度差绝对值不超过1
平衡二叉树很好地解决了二叉查找树退化成链表的问题

在这里插入图片描述
上图：

两棵树都是二叉查找树
左边的不是平衡二叉树节点6的子节点：节点2的高度为：2，节点7的高度为：0，| 2 – 0 | = 2 > 1）
右边的是平衡二叉树节点6的子节点：节点3的高度为：1，节点7的高度为：0，| 1 – 0 | = 1 = 1 ）

平衡二叉树的特点

AVL树是高度平衡的（严格平衡），频繁的插入和删除，会引起频繁的rebalance，导致效率下降，它比较使用与插入/删除较少，查找较多的场景

红黑树

简介

红黑树是一种含有红黑节点并能自平衡的二叉搜索树，它满足以下性质：

每个节点要么是黑色，要么是红色
根节点是黑色
每个叶子节点（NIL）是黑色
每个红色结点的两个子结点一定都是黑色
任意一结点到每个叶子结点的路径都包含数量相同的黑结点

在这里插入图片描述

红黑树的特点

和AVL树不一样，红黑树是一种弱平衡的二叉树，它的插入/删除效率更高，所以对于插入、删除较多的情况下，就用红黑树，而且查找效率也不低。例如：Java中的TreeMap就是基于红黑树实现的。

B树

什么是B树

B树是一种平衡多路搜索树
与二叉搜索树不同的是，B树的节点可以有多个子节点，不限于最多两个节点
它的子节点可以是几个或者是几千个

B树的特点

所有节点关键字是按递增次序排列，并遵循左小右大原则
B-树有个最大的特点是有多个查找路径，而不像二叉搜索树，只有两路查找路径。
所有的叶子节点在同一层
逐层查找，找到节点后返回

B-树的查找方式

从根节点的关键字开始比较，例如：上图为13，判断大于还是小于
继续往下查找，因为节点可能会有多个节点，所以需要判断属于哪个区间
不断往下查找，直到找到为止或者没有找到返回Null

B+树结构

B+树简介

B+树是B树的升级版。B+树常用在文件系统和数据库中，B+树通过对每个节点存储数据的个数进行扩展，可以让连续的数据进行快速访问，有效减少查询时间，减少IO操作。它能够保持数据稳定有序，其插入与修改拥有较稳定的对数时间复杂度。

例如：Linux的Ext3文件系统、Oracle、MySQL、SQLServer都会使用到B+树。

在这里插入图片描述

B+ 树是一种树数据结构，是一个n叉树
每个节点通常有多个孩子
一颗B+树包含根节点、内部节点和叶子节点
只有叶子节点包含数据（所有数据都是在叶子节点中出现）

B+树的特点

所有关键字都出现在叶子结点的链表中（稠密索引），且链表中的关键字恰好是有序的
如果执行的是：select * from user order by id，要全表扫描数据，那么B树就比较费劲了，但B+树就容易了，只要遍历最后的链表就可以了。
只会在叶子节点上搜索到数据
非叶子结点相当于是叶子结点的索引（稀疏索引），叶子结点相当于是存储
数据库的B+树高度大概在 2-4 层，也就是说查询到某个数据最多需要2到4次IO，相当于0.02到0.04s

稠密索引和稀疏索引

稠密索引文件中的每个搜索码值都对应一个索引值
稀疏索引文件只为索引码的某些值建立索引项

稠密索引：

在这里插入图片描述
稀疏索引：

在这里插入图片描述

LSM树数据结构

简介

传统关系型数据库，一般都选择使用B+树作为索引结构，而在大数据场景下，HBase、Kudu这些存储引擎选择的是LSM树。LSM树，即日志结构合并树(Log-Structured Merge-Tree)。

LSM树主要目标是快速建立索引
B+树是建立索引的通用技术，但如果并发写入压力较大时，B+树需要大量的磁盘随机IO，而严重影响索引创建的速度，在一些写入操作非常频繁的应用场景中，就不太适合了
LSM树通过磁盘的顺序写，来实现最好的写性能

LSM树设计思想

在这里插入图片描述

LSM 的主要思想是划分不同等级的结构，换句话来理解，就是LSM中不止一个数据结构，而是存在多种结构
一个结构在内存、其他结构在磁盘（HBase存储结构中，有内存——MemStore、也有磁盘——StoreFile）
内存的结构可以是B树、红黑树、跳表等结构（HBase中是跳表），磁盘中的树就是一颗B+树
C0层保存了最近写入的数据，数据都是有序的，而且可以随机更新、随机查询
C1到CK层的数据都是存在磁盘中，每一层中key都是有序存储的

LSM的数据写入操作

首先将数据写入到WAL（Write Ahead log），写日志是顺序写，效率相对较高（PUT、DELETE都是顺序写）
数据项写入到内存中的C0结构中
只有内存中的C0结构超过一定阈值的时候，将内存中的C0、和C1进行合并。这个过程就是Compaction（合并）
合并后的新的C1顺序写磁盘，替换之前的C1
但C1层达到一定的大小，会继续和下层合并，合并后旧的文件都可以删除，只保留最新的
整个写入的过程只用到了内存结构，Compaction由后台异步完成，不阻塞写入

LSM的数据查询操作

先在内存中查C0层
如果C0层中不存在数据，则查询C1层
不断逐层查询，最早的数据在CK层
C0层因为是在内存中的结构中查询，所以效率较高。因为数据都是分布在不同的层结构中，所以一次查询，可能需要多次跨层次结构查询，所以读取的速度会慢一些。
根据以上，LSM树结构的程序适合于写密集、少量查询的场景

it噩梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase数据结构

文章目录跳表常见树结构二叉搜索树（Binary Search Tree）什么是二叉搜索树？树的高度、深度、层数二叉搜索树的特点二叉搜索树的查询方式二叉搜索树的缺点平衡二叉树（Balance Binary Tree）简介平衡二叉树的特点红黑树简介红黑树的特点B树什么是B树B树的特点B-树的查找方式B+树结构B+树简介B+树的特点稠密索引和稀疏索引LSM树数据结构简介LSM树设计思想LSM的数据写入操作LSM的数据查询操作在分析HBase的LSM合并树之前，我们需要来了解一些常用的数据结构知识。跳表上.
复制链接

扫一扫