HBase批量插入数据

写在前面

其实下文内容更适合在Spark中作为任务去执行,为了讲解,我先单独拎出来了,使用场景的话其实也很明显,就是大规模将数据写入HBase中。

关键点

  1. 大数据组件服务不可用(如断点、磁盘爆炸等)暂时不是本文内容所考虑的内容。

  2. 首先,使用HBase1.0以上版本才支持的BufferedMutator,对HBase执行异步写入操作,使用mutate(List<? extends Mutation> var1)去执行写入操作。
    建议手动设定writeBufferSize参数,使用spark时设置为10 * 1024 * 1024(10MB),普通java程序设置为50 * 1024 * 1024(50MB),不宜过大。

  3. 加入容错机制,即BufferedMutator.ExceptionListener,防止在批量插入时因为触发Region Split或Region Blance等导致Region的短暂下线的相关异常,在接收到NotServingRegionException等异常时会进行一次重试。在重试之前需要将线程sleep几秒,不放心的话可以sleep几十秒,也是问题不大的。
    因为在组件可用的情况下,亿级数据一次split的操作在毫秒级的时间内就能完成,所以仅仅是一次重试便能在很大程度上减少插入数据时丢失数据的情况,并且对速度几乎无影响。

  4. 不要一次性插入几百万条数据,不仅内存吃不消而且插入速度也异常缓慢,个人实践下来每个批次3000-5000左右的数据量最佳。

实现代码

下面是具体代码,截取部分内容,其中关于HBase的连接和写入的表与列簇都需要自行修改。。。

        //HBase连接
        Configuration configuration = HBaseConfiguration.create();
        configuration.set("zookeeper.znode.parent", "127.0.0.1");
        configuration.set("hbase.zookeeper.property.clientPort", "2181");
        configuration.set("hbase.zookeeper.quorum", "hbase-unsecure");
        Connection connection = null;
        BufferedMutator table = null;
        try {
   
            //异常处理
            final BufferedMutator.ExceptionListener listener = (e, mutator) -> {
   
                String failTime = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss").format(LocalDateTime.now(
  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
你可以使用 HBase 的 Java API 来实现批量插入 JSON 数据。下面是一个示例代码: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.util.Bytes; import org.json.JSONArray; import org.json.JSONObject; import java.io.IOException; public class HBaseJsonBulkInsert { private static final String TABLE_NAME = "your_table_name"; private static final String COLUMN_FAMILY = "your_column_family"; private static final String COLUMN_QUALIFIER = "your_column_qualifier"; public static void main(String[] args) { Configuration conf = HBaseConfiguration.create(); try (Connection connection = ConnectionFactory.createConnection(conf); Table table = connection.getTable(TableName.valueOf(TABLE_NAME))) { JSONArray jsonArray = new JSONArray("your_json_array"); // 将你的 JSON 数据转换为 JSONArray 对象 Put[] puts = new Put[jsonArray.length()]; for (int i = 0; i < jsonArray.length(); i++) { JSONObject jsonObject = jsonArray.getJSONObject(i); String rowKey = jsonObject.getString("id"); // 假设你的 JSON 数据中有一个字段名为 id,用作行键 String value = jsonObject.toString(); // 将整个 JSON 对象转换为字符串,作为值 Put put = new Put(Bytes.toBytes(rowKey)); put.addColumn(Bytes.toBytes(COLUMN_FAMILY), Bytes.toBytes(COLUMN_QUALIFIER), Bytes.toBytes(value)); puts[i] = put; } table.put(puts); // 批量插入数据 System.out.println("Data inserted successfully."); } catch (IOException e) { e.printStackTrace(); } } } ``` 请将 `your_table_name`、`your_column_family`、`your_column_qualifier` 替换为你实际的表名、列族名和列限定符名。将 `your_json_array` 替换为你的 JSON 数组变量名或直接写入 JSON 数组的字符串。 这个示例使用 HBase 的 Java API 将 JSON 数组中的每个对象转换为适当的 HBase Put 对象,并使用 `table.put()` 方法进行批量插入
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值