容量规划和Region配置

欢迎转载,请注明:http://blog.csdn.net/oozie123


当我们规划HBase集群容量和执行初始配置时,有很多注意事项。合理配置我们得对HBase内部数据的处理有深入的理解。

1 节点数和硬件/VM配置

1.1物理数据大小

你的数据在磁盘上的物理数据大小与逻辑数据大小截然不同,而且被下面选项影响:

  • 增加的HBase开销。
  • keyvalue and keysize,每个keyvalue (Cell)最少24字节,小的keyvalue 意味着相对应小开销。
  • keyvalue instances 聚合成blocks,blocks是被索引的,索引也是会被储存,Blocksize是基于每一个列簇配置。

译者注:Blocksize配置越大,意味着建立的索引越少,命中的概率也会降低。不同场景,请进行合理规划。

  • 压缩和数据块编码。
  • region server wal大小(通常小于RS内存的一半)。
  • HDFS replication数。

撇开磁盘空间是储存数据的必要条件,1个RS也不能可能储存任意大容量的数据,由于某些像region count和size的限制。

1.2Read/Write吞吐量

计算系统读写吞吐量时,要考虑有多少节点被驱动。每个节点的吞吐量依据数据量和请求模式。根据测试负载的峰值,来规划节点数目的增加。PerformanceEvaluation 和 ycsb工具可以用来测试单个节点和一个测试集群。
对于读,通常5-15Mb/s 每个RS可以被尝试,因为每个RS仅仅有一个活跃的WAL。对于读,没有很好的评估标准,它取决于数据量,请求数,cache命中率。

1.3JVM GC限制

由于GC的花费,RS不能运用非常大的堆内存,也没有好的方式在一个服务器上运行多个RS-es(不是在一台机器上运行多个VMs),这样,推荐使用20~24GB或者更少的内存用于每一个RS。GC调优需要非常大的内存,参见gcpause0, trouble.log.gc

2 配置region数量和大小

通常少量的regions,集群会运行非常流畅(你可以总是稍微晚些手动split大的regions(如果有必要),或者同过集群负载均衡)。20~200个regions每个RS是比较合理的范围,每个RS的regions数量不能直接配置(除非全部配置disable.splitting),根据给定表大小,调整region的大小。
注意,每张表的region大多数配置可以通过HTableDescriptorshell commands配置。这些配置会覆盖hbase-site.xml,通常这在你的表被不同工作负荷使用时特别有用。
另外注意region的大小,HDFS replication 因子不会被考虑进去,而ops.capacity.nodes.datasize会被纳入考虑。所以如果你的数据是压缩的, replication 是3,9GB region意味着9GB的压缩数据。HDFS replication只会影响磁盘空间,并且大多数HBase代码不可见。

2.1 查看当前regions数

可以通过HMaster UI或者bin/hbase hbck command进行查看。

2.2 每个RS中regions上界

通常每个RS最大regions数目决定于memstore memory的使用情况,每个region拥有自己的memstores,它们是可配置的,通常是128~256MB,参考hbase.hregion.memstore.flush.size。RS通过指明总内存的百分比给予它的memstores参考hbase.regionserver.global.memstore.size
如果内存超过警戒值,会引起一些不良的后果,诸如服务器反应延迟,合并风暴。一个好的起始点指示每个RS该拥有的regions数目为:

((RS memory) * (total memstore fraction)) / ((memstore size)*(# column families))

公式是伪代码,有两种公式可用,第一个是HBase 0.98+ 和第二个是 HBase 0.94.x
HBase 0.98.x

((RS Xmx) * hbase.regionserver.global.memstore.size) / (hbase.hregion.memstore.flush.size * (# column families))

HBase 0.94.x

((RS Xmx) * hbase.regionserver.global.memstore.upperLimit) / (hbase.hregion.memstore.flush.size * (# column families))+

如果给每个RS 16GB内存,按照公式,在起点,每个RS将拥有16384*0.4/128 ~ 51个regions。该公式可以扩张到多表。
该计算结果可以被调整公式是假设所有你的regions大约已同样的速度都被填满。如果你的regions只有一部分处于活跃写的状态,你可以调大regions数。即使是所有的regions都在写入,所有的region memstores也不会填满,由于有并发flush数目的限制。这样我们可以设置2~3倍regions数量作为起始点,然而增加regions也就意味找增加风险。

2.3 每个RS中regions下界

如果你拥有大量的数据,可能你想维护大量的regions数去避免每个region太大。

2.4 region大小极值

对于生产环境的大表,region大小的极值通常限制于合并,非常大的合并,如major会降低集群的性能。目前推荐最大region大小是10~20Gb, 5-10Gb 是最优的。
什么值会使一个region split成两个,它通过hbase.hregion.max.filesize配置。
如果你不能很好的估算region的开始大小,你最好直接使用默认值。对于热表,可能你会配置小点(或者手动split热region),如果你的cell比较大,你可以把region配置大点。

2.5 每个RS总数据量

通过上述region大小和每个RS中regions数,保守估计每个RS将维护10GB*100regions=1T数据量。然而考虑数据量和缓存大小比例在RS级别也很重要。每个服务器1TB数据,10GB block cache,仅仅只有1%数据被缓存,实在是太勉强。

3 初始化配置和调优

3.1 Compactions

依据读写体积和延迟需求,最优的合并策略是不同的,参考compaction
当数据量非常大时,请记住合并对写的吞吐量影响很大。这样,对于写密集型,你可能需要选择低频繁地合并和更多store files才合并。通设置hbase.hstore.compaction.min为更高值,增大最少合并文件数,同时调大hbase.hstore.blockingStoreFiles的值。另外你可以考虑使用手动管理合并,参考managed.compactions

3.2 表预分裂

我们可以在常见表的时候先创建一些regions,这样既可以避免昂贵地分裂,也可以确保表一开始就是分布在多个服务器。
如果一个表预期会增张到很大,则每个RS至少预分裂一个region,不建议直接split到目标值,一个中间值可以被选择。参考manual region splitting decisionsprecreate.regions

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据来源:中经数据库 主要指标110多个(全部都是纯粹的 市辖区 指标),大致是: GDP GDP增速 第一产业增加值占GDP比重 第二产业增加值占GDP比重 第三产业增加值占GDP比重 人均GDP 社会消费品零售总额 固定资产投资(不含农户) 新设外商投资企业数_外商直接投资 实际利用外资金额(美元) 一般公共预算收入 一般公共预算支出 一般公共预算支出_教育 一般公共预算支出_科学技术 金融机构人民币各项存款余额_个人储蓄存款 金融机构人民币各项存款余额 金融机构人民币各项贷款余额 规模以上工业企业单位数 规模以上工业企业单位数_内资企业 规模以上工业企业单位数_港澳台商投资企业 规模以上工业企业单位数_外商投资企业 规模以上工业总产值 规模以上工业总产值_内资企业 规模以上工业总产值_港澳台商投资企业 规模以上工业总产值_外商投资企业 规模以上工业企业流动资产合计 规模以上工业企业固定资产合计 规模以上工业企业利润总额 规模以上工业企业应交增值税 规模以上工业企业主营业务税金及附加 户籍人口数 年均户籍人口数 户籍人口自然增长率 第一产业就业人员占全部城镇单位就业人员比重 第二产业就业人员占全部城镇单位就业人员比重 第三产业就业人员占全部城镇单位就业人员比重 城镇非私营单位就业人员数 城镇非私营单位就业人员数_第一产业 城镇非私营单位就业人员数_第二产业 城镇非私营单位就业人员数_第三产业 城镇非私营单位就业人员数_农、林、牧、渔业 城镇非私营单位就业人员数_采矿业 城镇非私营单位就业人员数_制造业 城镇非私营单位就业人员数_电力、热力、燃气及水生产和供应业 城镇非私营单位就业人员数_建筑业 城镇非私营单位就业人员数_批发和零售业 城镇非私营单位就业人员数_交通运输、仓储和邮政业 城镇非私营单位就业人员数_住宿和餐饮业 城镇非私营单位就业人员数_信息传输、软件和信息技术服务业 城镇非私营单位就业人员数_金融业 城镇非私营单位就业人员数_房地产业 城镇非私营单位就业人员数_租赁和商务服务业 城镇非私营单位就业人员数_科学研究和技术服务业 城镇非私营单位就业人员数_水利、环境和公共设施管理业 城镇非私营单位就业人员数_居民服务、修理和其他服务业 城镇非私营单位就业人员数_教育 城镇非私营单位就业人员数_卫生和社会工作 城镇非私营单位就业人员数_文化、体育和娱乐业 城镇非私营单位就业人员数_公共管理、社会保障和社会组织 城镇非私营单位在岗职工平均人数 城镇就业人员数_私营企业和个体 城镇非私营单位在岗职工工资总额 城镇非私营单位在岗职工平均工资 城镇登记失业人员数 建成区面积 建设用地面积 建设用地面积_居住用地 液化石油气供气总量 液化石油气供气总量_居民家庭 人工煤气、天然气供气总量 人工煤气、天然气供气总量_居民家庭 液化石油气用气人口 人工煤气、天然气用气人口 城市公共汽电车运营车辆数 城市出租汽车运营车辆数 城市公共汽电车客运总量 道路面积 排水管道长度 建成区绿化覆盖面积 建成区绿化覆盖率 绿地面积 公园绿地面积 维护建设资金支出 土地面积 生活用水供水量 供水总量 全社会用电量 城乡居民生活用电量 工业生产用电量 房地产开发投资 房地产开发投资_住宅 限额以上批发和零售业法人单位数 限额以上批发和零售业商品销售总额 普通中学学校数 中等职业教育学校数 普通小学学校数 普通高等学校专任教师数 普通中学专任教师数 中等职业教育专任教师数 普通小学专任教师数 普通高等学校在校生数 普通中学在校生数 中等职业教育在校生数 普通小学在校生数 电视节目综合人口覆盖率 公共图书馆总藏量_图书 医疗卫生机构数_医院和卫生院 卫生人员数_执业(助理)医师 医疗卫生机构床位数_医院和卫生院 城镇职工基本养老保险参保人数 职工基本医疗保险参保人数 失业保险参保人数

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值