【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言
通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤。
bulkload的详细情况请参见官网文档。

过程
  • 第一步:每台机器执行
ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml

  • 第二步:编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,拷贝到所有节点
末尾添加:
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/*:$ZOOKEEPER_HOME/zookeeper-3.4.6.jar

  • 第三步:生成HFile文件
hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar importtsv -Dimporttsv.columns=${hbase_columns}  -Dimporttsv.bulk.output=${hfile_path} ${hbase_table} ${source_data_path}

注意:
  1. ${hbase_columns}顺序列出了导入HBase后的每一列,格式【列族:限定符】。列的顺序需和${source_data_path}数据中的字段顺序匹配。计划作为rowkey的字段使用HBASE_ROW_KEY,例如“HBASE_ROW_KEY,SERVICE_INFO:ID,SERVICE_INFO:RRANK,SERVICE_INFO:SERVICE_CODE”
  2. bulkload会自动创建${hfile_path},只需指定,无需事先创建;
  3. ${hbase_table}可以带上namespace,例如"JILIN_SME_SP_RECS:SP_T_RE_GUL_SERVICE"
  4. ${source_data_path}这里我们使用的是一个hive的外部表数据目录。
  • 第四步:导入数据到HBase
hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar completebulkload ${hfile_path} ${hbase_table}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值