写在前面
其实下文内容更适合在Spark中作为任务去执行,为了讲解,我先单独拎出来了,使用场景的话其实也很明显,就是大规模将数据写入HBase中。
关键点
-
大数据组件服务不可用(如断点、磁盘爆炸等)暂时不是本文内容所考虑的内容。
-
首先,使用HBase1.0以上版本才支持的BufferedMutator,对HBase执行异步写入操作,使用mutate(List<? extends Mutation> var1)去执行写入操作。
建议手动设定writeBufferSize参数,使用spark时设置为10 * 1024 * 1024(10MB),普通java程序设置为50 * 1024 * 1024(50MB),不宜过大。 -
加入容错机制,即BufferedMutator.ExceptionListener,防止在批量插入时因为触发Region Split或Region Blance等导致Region的短暂下线的相关异常,在接收到NotServingRegionException等异常时会进行一次重试。在重试之前需要将线程sleep几秒,不放心的话可以sleep几十秒,也是问题不大的。
因为在组件可用的情况下,亿级数据一次split的操作在毫秒级的时间内就能完成,所以仅仅是一次重试便能在很大程度上减少插入数据时丢失数据的情况,并且对速度几乎无影响。 -
不要一次性插入几百万条数据,不仅内存吃不消而且插入速度也异常缓慢,个人实践下来每个批次3000-5000左右的数据量最佳。
实现代码
下面是具体代码,截取部分内容,其中关于HBase的连接和写入的表与列簇都需要自行修改。。。
//HBase连接
Configuration configuration = HBaseConfiguration.create();
configuration.set("zookeeper.znode.parent", "127.0.0.1");
configuration.set("hbase.zookeeper.property.clientPort", "2181");
configuration.set("hbase.zookeeper.quorum", "hbase-unsecure");
Connection connection = null;
BufferedMutator table = null;
try {
//异常处理
final BufferedMutator.ExceptionListener listener = (e, mutator) -> {
String failTime = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss").format(LocalDateTime.now(