准备工作
先将我们需要导入hbase的那个csv传到hdfs文件系统上:
bin/hdfs dfs -mkdir /user/mustafa/hbase/input
bin/hdfs dfs -put /home/mustafa/Desktop/groups.csv /user/mustafa/hbase/input
在hbase中创建一张需要导入数据到其中的表
export HBASE_HOME=/data/home/software/hbase-1.2.0-cdh5.16.2
# 进入hbase shell中执行
$HBASE_HOME/bin/hbase shell
create_namespace 'jiazu'
create 'jiazu:groups', {NAME => 'info', VERSIONS => 1}
开始执行
核心是要执行 `bin/yarn jar $HBASE_HOME/lib/hbase-server-1.2.0-cdh5.16.2.jar importtsv` 这个命令,但需要把hbase的jar包导入到HADOOP_CLASSPATH环境变量中
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:`$HBASE_HOME/bin/hbase mapredcp`
开始导入,在yarn上执行jar包
bin/yarn jar $HBASE_HOME/lib/hbase-server-1.2.0-cdh5.16.2.jar importtsv \
-Dimporttsv.columns=HBASE_ROW_KEY,info:name \
-Dimporttsv.separator=, \
jiazu:groups /user/mustafa/hbase/input/groups.csv
查看结果
scan 'jiazu:groups', {LIMIT => 2}