9.6 Regionserver

HRegionServer是RegionServer的实现。它负责承载和管理region。在分布式集群中,RegionServer运行在数据节点上。

9.6.1 接口

HRegionServer提供的方法既有面向数据的又有面向region的:

  • 数据(get, put, delete, next等)
  • region(splitRegion, compactRegion等)

例如,当HBaseAdmin调用表的majorCompact方法时,客户端通过遍历所有指定表相关的region,直接向每个region请求大合并。

9.6.2 进程

RegionServer会在后台运行多个不同的线程。

9.6.2.1 CompactSplitThread

检测分裂,并处理小合并。

9.6.2.2 MajorCompactionChecker

检测大合并。

9.6.2.3 MemStoreFlusher

周期性地将内存中MemStore中的数据写入磁盘上的StoreFiles中。

9.6.2.4 LogRoller

周期性地检测RegionServer的HLog。

9.6.3 协处理器

在0.92版本中添加了协处理器,具体内容可参看Blog Overview of CoProcessors

9.6.4 块缓存

9.6.4.1 设计

块缓存使用最近最少使用(LRU)算法,包括三个级别的块优先级,以便提供扫描性能和内存中的列族:

  • 单一访问优先级:当块第一次从HDFS加载时通常具有该优先级,它会是首先被考虑淘汰掉的数据组的一部分。这样做的优点是,扫描的数据块比更多使用的块更易被淘汰。
  • 多次访问优先级:如果一个上一优先级中的块被再次访问了,那么它将升级到这个优先级。它是在淘汰过程中第二个被考虑的数据组。
  • 内存访问优先级:如果块的列族配置为”in-memory“,它的访问次数将被忽略。目录表就使用了这种配置。它是在淘汰过程中最好被考虑的数据组。
更多信息,可参考 LruBlockCache source

9.6.4.2 使用

所有用户表默认使用块缓存,这意味着每次读操作都会加载LRU缓存。这对于大量使用的情况下或许是好的,但通过需要进一步地调节以获得更好的性能。一个重要的概念是”工作计划大小“,或称WSS,意思是计算一个问题的答案时所需的内存大小。对于网站而言,这是短时间内满足查询请求的数据。

计算HBase中内存使用的方法是:

  number of region servers * heap size * hfile.block.cache.size * 0.85

块缓存的默认值是0.25,即可获得的堆大小的25%。最后一个值(0.85)是LRU缓存开始淘汰数据后的默认可接受的负载系数。它被包含在方程式中的原因是,存储器呗100%使用时不现实的,因为会在加载新的块时发生堵塞。下面是一些例子:

  • 一个RegionServer的默认堆大小为1GB,默认需要块缓存为217MB
  • 20个堆大小设为8GB的region服务器,默认需要块缓存将有34GB
  • 100个堆大小为24GB的region服务器,默认需要块缓存为1T
你的数据并不是块缓存中的唯一数据,还应考虑些其他因素:

  • 目录表:-ROOT-和.META.表呗强制存入块缓存中,又因为它们具有内存级优先级,所以很难被淘汰。前者不会超过几百B,而后者可能会需要及MB(取决于region数量)。
  • HFile索引:HFile是HBase用于将数据存入HDFS时使用的文件格式,为了能够在不全部读取文件的情况下定位数据,它包含多级索引。索引大小取决于块大小、存储的键和数据的大小。对于大的数据集,尽管由于LRU淘汰机制,并不是所有索引都缓存起来,但每个region服务器1GB左右的大小不是不常见的。
  • 键:仅考虑存储的值是不完全的,因为每个值都对应着一个被存储的键。
  • Bloom过滤器:与HFile的索引相似,这些数据结果也是存储在LRU中的。
目前推荐的做法是,通过网页接口查看相关矩阵(metric)来衡量HFile的索引和bloom过滤器的大小。对于键,可以通过HFile相关命令行工具进行采样,之后计算键的平均大小。

当WSS与内存大小不符时通常不推荐使用块缓存。这是一个例子,比如总共有40GB块缓存,但你需要处理1TB的数据。一个原因是,淘汰时会出发更多不必要的垃圾回收工作。这又两个用例:

  • 全部随机读:同一行几乎不会读两次。
  • 映射表:典型的将数据表作为输入的MapReduce作业,每行金辉读取一次,所以无需将它们存入块缓存。

9.6.5 预写日志(WAL)

9.6.5.1 目的

每个RegionServer首先将更新写入WAL中。这可以确保避免在向HBase写数据时,因为服务器在数据写入磁盘前死掉而造成数据丢失的可能。HLog是HBase WAL的实现,并且每个RegionServer都对应着一个HLog实例。WAL作为每个region的子目录写在HDFS中,名为/hbase/.log/

9.6.5.3 WAL分裂


http://hbase.apache.org/book/regionserver.arch.html


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值