第十七记·Java操作HBase进行Bulkload方法导入数据

最新推荐文章于 2024-08-01 04:39:02 发布

一尺月光寒

最新推荐文章于 2024-08-01 04:39:02 发布

阅读量4.1k

点赞数 1

分类专栏：大数据学习之路·XY记文章标签： Java操作HBase Java进行Bulkload数据导入 Bulkload的有点

本文链接：https://blog.csdn.net/u014414323/article/details/81219516

版权

XY个人记

在第十四记·HBase与MapReduce的集成整合与常用操作中，我们通过HBase shell 进行了Bulkload方式导入数据，Bulkload的方法利用HBase数据按照HFile格式存储在HDFS的原理，使用Mapreduce直接生成HFile格式文件后，RegionServers再将HFile文件移动到相应的Region目录下，这样的方法的有点在于导入过程不占用Region资源、能快速导入海量的数据、还节省了内存，避免了频繁进行flush，split，compact等大量IO操作，配合mapreduce完成更高效便捷

下面直接使用Java进行操作，代码如下：

package com.hadoop.hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.Immutabl