hbase不睡觉书重点

娟宝宝萌萌哒

已于 2022-08-07 15:24:35 修改

阅读量353

点赞数

分类专栏：数据库文章标签： hbase region server region store wal

于 2019-10-24 19:12:16 首次发布

本文链接：https://blog.csdn.net/qq_40369829/article/details/102729670

版权

25 篇文章 1 订阅

订阅专栏

优点：
- 大容量存储。支持P级别数据。
- 高ops。单节点1w+，集群可达百万+。
- 列扩展方便。
  - client直接新增列即可，列为空不占存储空间。
  - mysql需要执行ddl，并占默认空间。
- 扩容方便。新增节点后执行rebalance即可。
缺点：
- 不支持复杂查询。kv型，需要rowkey查询。
- 单点恢复时间较长。分钟级，保证CP。
- 长尾。受gc影响，999线是avg 20 倍左右。
- 部署较复杂。
对比关系型数据库：
- 关系型数据库：行的各个列都是不可分割的，存储在一起。
- Hbase：行是抽象的概念，每一列是离散的，不同列可在不同机器上。

运行时强一致：对于每一个region同时只有一个region server提供服务。
故障时牺牲可用性：region server宕机，迁到其他region server，新region需要根据WAL来redo，这期间region不可用的，从而提高一致性。

region server 是region 的容器。
region ，一段数据的集合,或者说多个行的集合（分片）：
- 不能跨服务器，一个region server上有多个region。
- 在数据量大的时候会分裂，负载均衡是也会在region server之间迁移。
- 基于HDFS，数据存取操作基于HDFS客户端接口。
- 用预拆分初始化和自动拆分管理region，大量删除数据后用online_merge合并region。
master 负责跨region server 的操作，如建表、移动region、合并region等。
zk 管理所有的region server，包括meta节点的地址。
- client和zk通信后直连region server，降低对master的依赖。

一个store存放一个列族的数据。
Memstore：一个store中一个memstore，内存存储对象，满了之后刷到HFile。
- 实现LSM树的组件：尽量保证数据是顺序存储到磁盘上，并有频率的整理，确保顺序性。从而在频繁的数据变动下保持系统读取的稳定性。
HFile：MemStore满了之后生成新的HFile，由块组成，每个块包括：
- Data：数据块。
  - BlockType：数据块等。
  - 多个Cell：KeyValue键值对。
- Meta：元数据块，文件关闭时写入。
- FileInfo：文件信息，比如最后一个key，文件关闭时写入。
- DataIndex：数据块的索引。
- MetaIndex：元数据块索引。
- Trailer：各个块的偏移值。

HDFS上的文件只能创建、删除、追加，不能修改。

WAL按照写入顺序排序，经过Memstore按照rowkey顺序排序。

WAL：基于HDFS，虽然已经持久化，但是时暂存日志，不区分store，不能直接读取。
Memstore：整理成LSM树。
1. 刷写（定时任务）之前，memstore容量如果到达阻塞阈值会暂停memstore的写入，可通过调大JVM堆解决。
HFile：memstore达到尺寸上限或者刷写间隔，刷到HDFS
1. Minor Compaction：store中的多个HFile合并为一个，达到TTL的数据会被移除。
2. Major Compaction：store中的所有HFile合并为一个，达到TTL的和手动删除的数据会被移除。

关注

专栏目录