HBase的底层存储原理

最新推荐文章于 2023-11-29 21:07:25 发布

衾何以堪

最新推荐文章于 2023-11-29 21:07:25 发布

阅读量824

点赞数

文章标签： HBase

本文链接：https://blog.csdn.net/qq_44796583/article/details/102600271

版权

HBase的底层存储原理

HBase下载地址:http://archive.apache.org/dist/hbase
HBase是分布式面向列（基于列）的Nosql数据库，表形式存储数据

Rowkey | CF1 | CF2
记录1 | 列1…列n | 列1…列n
纪录2 …

CF表示引入的概念“列簇”，抽象为Store
其实现运用了LSM树的结构
LOG-Structured Merge Tree日志结构合并树
LSM 树按另一种不同的方式组织数据，输入的数据会被先存在日志文件中，这些文件内的数据是完全有序的，当文件被修改时，对应的更新会被先保存在内存中，这样可以加速查询。LSM树分为两个部分，一部分在磁盘一部分在内存，当内存空间逐渐被占满之后，LSM会把这些有序的键刷新到磁盘，同时和磁盘中的LSM树合并成一个文件。

每一次的插入操作都会先进入FLUSH内存缓冲区
当 MemStore达到上限的时候，Hbase会将内存中的数据输出为有序的文件数据
这样会在Store中形成很多个小的StoreFile，当这些小的File数量达到一个阀值的时候，Hbase会用一个线程来把这些小File合并成一个大的File，这样，Hbase就把效率低下的文件中的插入、移动操作转变成了单纯的文件输出、合并操作。
ROWKEY越短越好（存储和检索来说）具有唯一性

HBase基于HDFS的存储zookeeper的管理
其读操作与写操作是独立的，更能保证写的操作性能
数据首先存在内存中
HFile数据格式中的Data字段用于存储实际的KEYVALUE的数据，其格式为byte[]数组，有固定结构VALUE为2进制数据
HFile数据格式中的METAINDEX字段用于META块的起始点
HFile数据格式中的MAGIC字段用于存储随机数防止数据损坏
HBase的二级索引的实现方式MAPREDUCE COPROCESSOR
核心是倒排表，对应一级Rowkey索引

衾何以堪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase的底层存储原理

HBase的底层存储原理HBase下载地址:http://archive.apache.org/dist/hbaseHBase是分布式面向列（基于列）的Nosql数据库，表形式存储数据Rowkey | CF1 | CF2记录1 | 列1…列n | 列1…列n纪录2 …CF表示引入的概念“列簇”，抽...
复制链接

扫一扫