HBase的读写流程

HBase的读流程

  • 客户端拿到一个RowKey(首先得知道这rowKey存在那个region中)
  • 根据zk查询获取hbase:meta表,这个表中存放了region的信息,根据namespace,表名,就可以根据rowkey的startkey,endkey返回region的信息
  • 还需要查询region是在哪个HRegionServer(因为我们是region会存在什么地方的)
  • 读取Store
    • 优先读取写缓存
      -读取BlockCache(LRUBlockCache、BucketBlockCache)
    • 再读取HFile

HBase的写流程

  1. 首先要将数据写入到MemStore中
  2. MemStore大小到达128M、MemStore数据已经超出一小时,会自动Flush到HDFS中的HFile
  3. compaction合并
    1. 一阶段合并:如果每一个MemStore写满后,都会一溢写到HFile中,这样会有很多的HFile,对将来的读取不利。所以需要将这些小的HFile合并成大一点的HFile
    2. 二阶段合并:将所有的HFile合并成一个HFile
      写数据的两阶段合并
      HBase 2.0+ In memory compaction(总共的流程为三个阶段的合并)
  • In memory comapaction主要是延迟flush到磁盘的时间,尽量优先写入到内存中,有一系列的合并优化操作
  • 数据都是以segment(段)来保存的,首先数据会写到active segment,active segment写完后会将segment合并到piepline里面,合并pipeline的之后会有一定的策略
    • basic:只管存,合并,不会优化重复数据
    • eager:会将一些重复数据进行优化
    • adaptive:会根据重复度来进行优化合并
  • pipeline如果到达一定的阈值,就开始Flush
  • in -memory合并
    • In memory comapaction主要是延迟flush到磁盘的时间,尽量优先写入到内存中,有一系列的合并优化操作
  • 数据都是以segment(段)来保存的,首先数据会写到active segment,active segment写完后会将segment合并到piepline里面,合并pipeline的之后会有一定的策略

在这里插入图片描述

Action溢写多个Segment,多个Segment之间进行合并,然后选取最新的segment写入flush (目的数去除掉同一批重复的,多余的操作)

in -memory合并的三种策略

  • basic:只管存,合并,不会优化重复数据
  • eager:会将一些重复数据进行优化
  • adaptive:会根据重复度来进行优化合并
  • pipeline如果到达一定的阈值,就开始Flush

在这里插入图片描述

StoreFile合并

> 这是对已经存在hdfs上的文件进行的
  • minorcompaction
    • 小范围合并3-8个,轻量级
    • 合并但不删除原文件
  • major compaction
    • 大范围的(全部),重量级
    • 合并成一个,并且删除原文件.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值