HBase数据读写

HBase写数据架构图:

HBase写过程如下:

  1. 先将数据写到WAL中;
  2. WAL存放在HDFS上;
  3. 每次put、Delete操作的数据均追加到WAL末端;
  4. 持久化到WAL之后,再写到MemStore中;
  5. 两者写完返回ACK客户端。

MemStore其实是一种内存结构,一个Column Family对应一个MemStore,MemStore里边的数据也是对RowKey进行字典排序的,如下:

既然我们写数据都是先写WAL,再写MemStore,而MemStore是内存结构,所以MemStore总会写满的,将MemStore的数据从内存刷写到磁盘的操作称为flush;

以下几种行为会导致flush操作:

  1. 全局内存控制
  2. MemStore使用达到上限
  3. RegionServer的Hlog数量达到上限;
  4. 手动触发
  5. 关闭Region Server触发

每次flush操作都是将一个MemStore的数据写到一个HFile里面的,所以上图中HDFS上有许多个HFile文件。文件多了会对h后面的读操作有影响,所以HBase会隔一段时间将HFile合并。根据合并的范围不同分为Minor Compaction和Major Compaction:

Minor Compaction:指选取一些小的、相邻的HFile将他们合并成一个更大的HFile

Major Compaction:将一个column family下所有的HFile合并成更大的;删除那些标记为删除的数据、超过TTL(time-to-live)时限的数据,以及超过了版本数量限制的数据。

HBase读操作相对于写操作更为复杂,其需要读取BlockCache、MemStore以及HFile。

HBase表按照RowKey分布到集群的不同机器上,那么我们如何去确定我们该读哪些RegionServer呢?这就是HBase Region查找的问题

客户端按照上面的流程查找需要读写的RegionServer。这个过程一般是第一次读写的时候进行的,在第一次读取到元数据之后客户端一般会把这些信息缓存到自己的内存中,后面操作直接从内存拿就行。当然,后面元数据信息可能还会变动,这时候客户端会再次按照上面的流程获取元数据。

参考出处微信公众号:过往记忆大数据

你的鼓励是我分享技术最大的动力!如有错误之处,请指正,不胜感激。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值