hbase的预分配region

最新推荐文章于 2023-09-05 16:49:46 发布

weixin_34034261

最新推荐文章于 2023-09-05 16:49:46 发布

阅读量234

点赞数

文章标签：大数据 shell python

原文链接：https://my.oschina.net/AlbertHa/blog/309239

版权

本文介绍在创建HBase表时如何通过预分配region来优化大数据并行加载性能，避免单节点负载过高。包括两种实现方法：使用RegionSplitter在HBase 0.90.X版本中建表时预分配region；或在HBase 0.94.x版本中直接在建表参数中设置预分配region数量。同时，文章提供了开启Bloomfilter和压缩参数以提升读性能的建议。

摘要由CSDN通过智能技术生成

2019独角兽企业重金招聘Python工程师标准>>>

在create一个表时如果不指定预分配region，则默认会先分配一个region，这样在大数据并行载入时性能比较低，因为所有的数据都往一个region灌入，容易引起单节点负载升高，从而影响入库性能，一个好的方法时在建立表时预先分配数个region。方法有两种，主要针对不同版本可供选择。

使用RegionSplitter方法，主要针对hbase-0.90.X版本

(1) 首先使用RegionSplitter建表，预分配region，例如建立一个poidb表，列簇为info，预分配9个region，

 hbase org.apache.hadoop.hbase.util.RegionSplitter -c 9 -f info poidb

(2) 修改建表参数（可选）

默认建表是没有开启Bloomfilter和压缩参数的，这里为了提供读性能，建议开启Bloomfilter，同时使用压缩SNAPPY，进入hbase shell，首先需要disable 'poidb',然后使用使用

alter 'poidb',{NAME => 'info',BLOOMFILTER => 'ROWCOL',COMPRESSION => 'SNAPPY',VERSIONS => '1'}

最后

enable 'poidb'

2.使用hbase shell建表参数，真多0.94.x版本

0.94版本可以直接在建表时直接使用预分配regions：

create 'poidb', { NAME => 'info', COMPRESSION => 'snappy' },  
{NUMREGIONS => 9, SPLITALGO => 'HexStringSplit'}

转载于:https://my.oschina.net/AlbertHa/blog/309239

weixin_34034261

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫