原理相当简单。就是根据region记录的1/2进行切分。
过程: 指定要split的目的region, 获得region中的行数,算出中间值,根据regionName和这个中间值做split-point, 利用HBaseAdmin的split接口触发最终的split.
整个过程可能需要依赖几个东西:
1.region中有多少记录? 这个我不知道是否有更直接的方法获得。至少一个直观的方法就是可以利用endpoint对表做快速统计(也是我们目前的实现), 从目标region得到startRow和stopRow, 传入scan, 得到目标数据量。
2. 1/2点(中间点)对应的rowkey怎么获得? 中间点简单, region总记录数/2就是。对应的rowkey的话, 可以通过加了SkipFilter/FirstKeyOnlyFilter/PageFilter(1) 3个过滤器的Scan来获得Result, Result.getRow便是。 当然,这里的SkipFilter并不是HBase原生的那个,(原生的那个我打心底觉得它不应该叫SkipFilter), 自己实现一个,hbase端跳过制定数量的记录便行。
目前看起来切分的效果符合预计。