HBase批量入库/导入

本文介绍了HBase批量导入数据的三种方法,包括通过MapReduce、客户端API和Bulk Load。重点讨论Bulk Load的两步走过程,详细阐述如何生成HFile以及使用`completebulkload`命令或`LoadIncrementalHFiles`进行加载。针对纽约出租车数据导入HBase的问题,提出了命令行限制及解决方案,如使用Spark Bulk Load和HFileOutputFormat2。
摘要由CSDN通过智能技术生成

一、理论知识

(一)加载数据到HBase的三种方法:

  1. 通过MR job,使用TableOutputFormat加载到表中。(效率较低)
    核心的原理还是使用htable的put方法,不过由于使用了mapreduce分布式提交到hbase,速度比单线程效率高出许多。
  2. 通过客户端API,写入表中。(效率较低)
  3. 通过Bulk load 运行MR job将数据输出为hbase内部格式,再加载数据到集群。(使用更少的CPU和网络资源)

(二)Bulk load两步走

  1. 通过MR job,使用HFileOutputFormat2,生成StoreFiles
    每一个输出的HFile 文件,都在一个单独的region内,所以需要使用TotalOrderPartitioner 进行分区。
    保证map任务的输出为相互不交叉的主键空间范围,也就是对应hbase中region里的主键范围。
  2. 完成文件加载,将数据导入hbase集群中。
    完成数据加载有两种方式:
    #命令行--- completebulkload 
    #代码---ImportTsv.java HFileOutputFormat 或 LoadIncrementalHFiles

(三)生成HFile的方法

  1. 命令方式:

    使用 importtsv 工具将 TSV 格式数据转换为 HFile。(自动生成MR任务)
  2. 代码方式:

    2.1 通过HFileOutputFormat2 类编写 MapReduce 程序来生成 HFile 。
    案例1:https://github.com/jrkinley/hbase-bulk-import-example
    案例2:https://www.cnblogs.com/smartloli/p/9501887.html

    2.2 Spark bulk load:Using thin record bulk load.
    案例1:(Hbase官网文档)Chapter 110 Bulk Load

(四)加载HFile的方法

  1. 命令方式:

    1.1 使用 completebulkload 将 HFile 导入到 HBase中。
    1.2 hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles HDFS_Dir_Path HBase_table_name
  2. 代码方式:
    调用LoadIncrementalHFiles 的doBulkLoad 方法来导入。

(五)常用命令

  1. 创建HBase表格,并做预分区:
    hbase org.apache.hadoop.hbase.util.RegionSplitter pre_split_table HexStringSplit -c pre_split_nums -f column_family
    pre_split_table:需要创建和预分区的表格名称。
    pre_split_nums:分区的个数。
    column_family:列族名称。
  2. HBase中表的行数统计:
    hbase   org.apache.hadoop.hbase.mapreduce.RowCounter table_name
    table_name:Hbase表的名称。
  3. 将HFile文件导入HBase集群中,生成表数据:
    hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /hdfs_dir_path  table_name
    hdfs_dir_path:HDFS中存储HFile文件的目录(该目录下一级应该还有一个以列族名命名的子目录)
    table_name:HBase表的名称
    
    

二、代码实操

需求:下载纽约出租车数据(https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page),将CSV文件导入到HBase中。

  1. 方法一:命令行方式
#将纽约出租车数据文件导入hbase表格(taxi_nyc_2013_01)中

hbase  org.apache.hadoop.hbase.mapreduc
删除HBase的元数据表(通常是位于 `/hbase/data/hbase/meta/` 目录下的文件)通常情况下不是一个常规操作,因为这些表存储着HBase的数据结构和配置信息,对它们的修改可能会导致整个集群的不稳定。如果意外删除了这部分数据,你需要按照以下步骤恢复或重建元数据: 1. **停止HBase服务**:首先确保集群已经完全关闭,避免在操作过程中损坏其他数据。 2. **检查备份**:如果HBase配置有合适的备份策略,比如HBase的HFileArchiver或Hadoop的HDFS,尝试从备份恢复元数据。 3. **手动创建元数据目录**:如果没有备份,可以在 `/hbase/data/hbase/meta/` 目录下手动创建一个新目录,但HBase可能无法自动识别并加载这些文件。这个操作通常用于全新安装或者初始化。 4. **恢复元数据**:如果可以,尝试使用HBase的工具如 `hbck` 或 `hbase shell` 的 `recoverMeta()` 命令来尝试恢复元数据。这需要对HBase的内部结构有深入理解,可能需要谨慎操作。 5. **重建表**:即使恢复了部分元数据,可能还需要重建一些关键表,这涉及到手动定义表结构,并通过命令行工具(如 `hbase> create 'your_table_name', 'family1, family2'`)来重新创建。 6. **小心调整**:在恢复过程中,务必仔细检查是否所有表都已经正确恢复,因为可能有一些依赖关系丢失或损坏。 **相关问题--:** 1. HBase的元数据表丢失后,如何使用hbck工具进行恢复? 2. 如何在HBase中手动创建新的元数据目录以进行初始化? 3. 除了HBCK,还有哪些方法可以尝试恢复HBase的元数据?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值