在使用hbase中,不免会出现热点问题。那么什么叫做热点问题呢?就是某些region的数据量比较大,某些region的数据量比较小,就导致了某几个的region server的负载量较大。
当我们采用默认的配置时,它会默认使用一个region,当region的数据量大到一定程度时,会发生split分成两个region。通常情况下,我们存储的rowkey都是以字典顺序存储,这样的话,由于region存在start key和end key,每次存储新的rowkey都会往新产生的region里存储(因为它的rowkey要大于之前的region的start key),于是就会导致之前的region存储的数据量小,而之后的region存储的数据量大。region默认发生split的条件为:min(flushsizenn,maxFilesize),这里n为(2*split次数-1),而maxFilesize默认为10G。即在第五次split时为10G,之后均为10G。
这里我就给大家讲解一下在工作中比较常用的处理热点问题的一种方法,预分区机制。
预分区机制
先放出代码:
//建表
public static void createTable(String tableName, String... columFamilys) throws IOException {
if (StringUtils.isBlank(tableName) || columFamilys.length == 0) {
return;
}
HBaseAdmin hAmin = Hba