【甘道夫】通过bulk load将HDFS上的数据导入HBase

最新推荐文章于 2021-02-26 00:07:21 发布

Gandalf_lee

最新推荐文章于 2021-02-26 00:07:21 发布

阅读量2.3k

点赞数

分类专栏： Hadoop2.0 HBase

本文链接：https://blog.csdn.net/u010967382/article/details/40788415

版权

Hadoop2.0 同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

HBase

7 篇文章 0 订阅

订阅专栏

引言

通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能，下面简单记录下关键步骤。

bulkload的详细情况请参见官网文档。

过程

第一步：每台机器执行

ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml

第二步：编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh，拷贝到所有节点

末尾添加：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/*:$ZOOKEEPER_HOME/zookeeper-3.4.6.jar

第三步：生成HFile文件

hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar importtsv -Dimporttsv.columns=${hbase_columns} -Dimporttsv.bulk.output=${hfile_path} ${hbase_table} ${source_data_path}

注意：

${hbase_columns}顺序列出了导入HBase后的每一列，格式【列族：限定符】。列的顺序需和${source_data_path}数据中的字段顺序匹配。计划作为rowkey的字段使用HBASE_ROW_KEY，例如“HBASE_ROW_KEY,SERVICE_INFO:ID,SERVICE_INFO:RRANK,SERVICE_INFO:SERVICE_CODE”
bulkload会自动创建${hfile_path}，只需指定，无需事先创建；
${hbase_table}可以带上namespace，例如"JILIN_SME_SP_RECS:SP_T_RE_GUL_SERVICE"
${source_data_path}这里我们使用的是一个hive的外部表数据目录。

第四步：导入数据到HBase

hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar completebulkload ${hfile_path} ${hbase_table}

Gandalf_lee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能，下面简单记录下关键步骤。bulkload的详细情况请参见官网文档。过程第一步：每台机器执行ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml
复制链接

扫一扫