讨论这个问题之前,我们大家都要知道HBase的体系架构。
HBase的表是由一到多个Region组成的;
Region是由一到多个HStore组成的;
HStore是由一到多个StoreFile和一个MemStore组成的;
一个表中CF(Column Family)的数量就对应一个Region中HStore的数量;
重点来了:
Region分裂它的作用域只是针对于Region的大小,并不是针对于HStore的大小。
然后这又有什么用勒,举例说明一下?
当一个表中有3个CF,也就是说每个Region都会有3个HStore。
如果该表的CF数据本来就有分配不均匀的现象。3个表的数据比例是1000:10:1
如果某个Region里面的A HStore有100万条数据,而B HStore里面只有1万条数据。但是整体Region达到了分裂的标准了,如果数据一直按照此比例增长,当要查询B CF的时候,我们会跨很多Region。因为整体数据大,但是CF的大小不均匀。从头再看一下重点。
有的小伙伴就有疑问了,这种情况怎么会出现?
太正常了,小伙伴们!记住,HBase是NoSql数据库,业务中都是关系型数据库的建立,也就是一对多的关系。
而HBase表设计,由关系型数据库转为非关系型数据库的时候,非关系型数据库的设计都是宽表设计。
然后这种业务场景也是很常见的。
小学生谈恋爱调查表。
A CF是高中生个人信息, B CF是对象信息。
100:1的比例(这是低估小学生的能力情况下~~~~)