HBase的底层存储原理

HBase的底层存储原理


HBase下载地址:http://archive.apache.org/dist/hbase
HBase是分布式面向列(基于列)的Nosql数据库,表形式存储数据

Rowkey | CF1 | CF2
记录1 | 列1…列n | 列1…列n
纪录2 …

CF表示引入的概念“列簇”,抽象为Store
其实现运用了LSM树的结构
LOG-Structured Merge Tree日志结构合并树
LSM 树按另一种不同的方式组织数据,输入的数据会被先存在日志文件中,这些文件内的数据是完全有序的,当文件被修改时,对应的更新会被先保存在内存中,这样可以加速查询。LSM树分为两个部分,一部分在磁盘一部分在内存,当内存空间逐渐被占满之后,LSM会把这些有序的键刷新到磁盘,同时和磁盘中的LSM树合并成一个文件。

每一次的插入操作都会先进入FLUSH内存缓冲区
当 MemStore达到上限的时候,Hbase会将内存中的数据输出为有序的文件数据
这样会在Store中形成很多个小的StoreFile,当这些小的File数量达到一个阀值的时候,Hbase会用一个线程来把这些小File合并成一个大的File,这样,Hbase就把效率低下的文件中的插入、移动操作转变成了单纯的文件输出、 合并操作。
ROWKEY越短越好(存储和检索来说)具有唯一性

HBase基于HDFS的存储zookeeper的管理
其读操作与写操作是独立的,更能保证写的操作性能
数据首先存在内存中
HFile数据格式中的Data字段用于存储实际的KEYVALUE的数据,其格式为byte[]数组,有固定结构VALUE为2进制数据
HFile数据格式中的METAINDEX字段用于META块的起始点
HFile数据格式中的MAGIC字段用于存储随机数 防止数据损坏
HBase的二级索引的实现方式MAPREDUCE COPROCESSOR
核心是倒排表,对应一级Rowkey索引

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值