容量规划和Region配置

最新推荐文章于 2024-04-26 23:34:35 发布

Oozie123

最新推荐文章于 2024-04-26 23:34:35 发布

阅读量5.7k

点赞数 2

分类专栏： 002 HBase 文章标签： hbase 容量规划

002 HBase 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

欢迎转载，请注明：http://blog.csdn.net/oozie123

当我们规划HBase集群容量和执行初始配置时，有很多注意事项。合理配置我们得对HBase内部数据的处理有深入的理解。

1 节点数和硬件/VM配置

1.1物理数据大小

你的数据在磁盘上的物理数据大小与逻辑数据大小截然不同，而且被下面选项影响:

增加的HBase开销。
keyvalue and keysize，每个keyvalue (Cell)最少24字节，小的keyvalue 意味着相对应小开销。
keyvalue instances 聚合成blocks，blocks是被索引的，索引也是会被储存，Blocksize是基于每一个列簇配置。

译者注：Blocksize配置越大，意味着建立的索引越少，命中的概率也会降低。不同场景，请进行合理规划。

压缩和数据块编码。
region server wal大小(通常小于RS内存的一半)。
HDFS replication数。

撇开磁盘空间是储存数据的必要条件，1个RS也不能可能储存任意大容量的数据，由于某些像region count和size的限制。

1.2Read/Write吞吐量

计算系统读写吞吐量时，要考虑有多少节点被驱动。每个节点的吞吐量依据数据量和请求模式。根据测试负载的峰值，来规划节点数目的增加。PerformanceEvaluation 和 ycsb工具可以用来测试单个节点和一个测试集群。
对于读，通常5-15Mb/s 每个RS可以被尝试，因为每个RS仅仅有一个活跃的WAL。对于读，没有很好的评估标准，它取决于数据量，请求数，cache命中率。

1.3JVM GC限制

由于GC的花费，RS不能运用非常大的堆内存，也没有好的方式在一个服务器上运行多个RS-es(不是在一台机器上运行多个VMs)，这样，推荐使用20~24GB或者更少的内存用于每一个RS。GC调优需要非常大的内存，参见gcpause0, trouble.log.gc。

2 配置region数量和大小

通常少量的regions，集群会运行非常流畅(你可以总是稍微晚些手动split大的regions(如果有必要)，或者同过集群负载均衡)。20~200个regions每个RS是比较合理的范围，每个RS的regions数量不能直接配置(除非全部配置disable.splitting)，根据给定表大小，调整region的大小。
注意，每张表的region大多数配置可以通过HTableDescriptor和shell commands配置。这些配置会覆盖hbase-site.xml，通常这在你的表被不同工作负荷使用时特别有用。
另外注意region的大小，HDFS replication 因子不会被考虑进去，而ops.capacity.nodes.datasize会被纳入考虑。所以如果你的数据是压缩的， replication 是3，9GB region意味着9GB的压缩数据。HDFS replication只会影响磁盘空间，并且大多数HBase代码不可见。

2.1 查看当前regions数

可以通过HMaster UI或者bin/hbase hbck command进行查看。

2.2 每个RS中regions上界

通常每个RS最大regions数目决定于memstore memory的使用情况，每个region拥有自己的memstores，它们是可配置的，通常是128~256MB，参考hbase.hregion.memstore.flush.size。RS通过指明总内存的百分比给予它的memstores参考hbase.regionserver.global.memstore.size。
如果内存超过警戒值，会引起一些不良的后果，诸如服务器反应延迟，合并风暴。一个好的起始点指示每个RS该拥有的regions数目为：

((RS memory) * (total memstore fraction)) / ((memstore size)*(# column families))

公式是伪代码，有两种公式可用，第一个是HBase 0.98+ 和第二个是 HBase 0.94.x。
HBase 0.98.x

((RS Xmx) * hbase.regionserver.global.memstore.size) / (hbase.hregion.memstore.flush.size * (# column families))

HBase 0.94.x

((RS Xmx) * hbase.regionserver.global.memstore.upperLimit) / (hbase.hregion.memstore.flush.size * (# column families))+

如果给每个RS 16GB内存，按照公式，在起点，每个RS将拥有16384*0.4/128 ~ 51个regions。该公式可以扩张到多表。
该计算结果可以被调整公式是假设所有你的regions大约已同样的速度都被填满。如果你的regions只有一部分处于活跃写的状态，你可以调大regions数。即使是所有的regions都在写入，所有的region memstores也不会填满，由于有并发flush数目的限制。这样我们可以设置2~3倍regions数量作为起始点，然而增加regions也就意味找增加风险。

2.3 每个RS中regions下界

如果你拥有大量的数据，可能你想维护大量的regions数去避免每个region太大。

2.4 region大小极值

对于生产环境的大表，region大小的极值通常限制于合并，非常大的合并，如major会降低集群的性能。目前推荐最大region大小是10~20Gb， 5-10Gb 是最优的。
什么值会使一个region split成两个，它通过hbase.hregion.max.filesize配置。
如果你不能很好的估算region的开始大小，你最好直接使用默认值。对于热表，可能你会配置小点(或者手动split热region)，如果你的cell比较大，你可以把region配置大点。

2.5 每个RS总数据量

通过上述region大小和每个RS中regions数，保守估计每个RS将维护10GB*100regions=1T数据量。然而考虑数据量和缓存大小比例在RS级别也很重要。每个服务器1TB数据，10GB block cache，仅仅只有1%数据被缓存，实在是太勉强。

3 初始化配置和调优

3.1 Compactions

依据读写体积和延迟需求，最优的合并策略是不同的，参考compaction 。
当数据量非常大时，请记住合并对写的吞吐量影响很大。这样，对于写密集型，你可能需要选择低频繁地合并和更多store files才合并。通设置hbase.hstore.compaction.min为更高值，增大最少合并文件数，同时调大hbase.hstore.blockingStoreFiles的值。另外你可以考虑使用手动管理合并，参考managed.compactions。

3.2 表预分裂

我们可以在常见表的时候先创建一些regions，这样既可以避免昂贵地分裂，也可以确保表一开始就是分布在多个服务器。
如果一个表预期会增张到很大，则每个RS至少预分裂一个region，不建议直接split到目标值，一个中间值可以被选择。参考manual region splitting decisions和precreate.regions。

Oozie123

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
容量规划和Region配置

欢迎转载，请注明：http://blog.csdn.net/oozie123 当我们规划HBase集群容量和执行初始配置时，有很多注意事项。合理配置我们得对HBase内部数据的处理有深入的理解。1 节点数和硬件/VM配置1.1物理数据大小你的数据在磁盘上的物理数据大小与逻辑数据大小截然不同，而且被下面选项影响:增加的HBase开销。keyvalue and keysize，每个keyvalu
复制链接

扫一扫