hbase的bulk loading代码和执行方法

最新推荐文章于 2024-06-20 08:52:54 发布

大明湖里有蛤蟆

最新推荐文章于 2024-06-20 08:52:54 发布

阅读量1.9k

点赞数 1

分类专栏： hbase

本文链接：https://blog.csdn.net/chaolovejia/article/details/46377419

版权

本文详细介绍了HBase的bulk loading过程，包括数据生成和加载的步骤。首先，创建分区表并设置classpath环境。接着，通过MapReduce生成HFile，要求输出的key-value类型为<ImmutableBytesWritable, KeyValue>或<ImmutableBytesWritable, Put>，使用HFileOutputFormat类，并配置incremental load。最后，执行数据加载并删除临时HFile。" 81192340,1098046,方正微run card中英文术语解析,"['嵌入式开发', '硬件系统', '微处理器', '系统诊断']

摘要由CSDN通过智能技术生成

bulk loading的优缺点这里就不再赘述，在本博客的其他文章已经进行过详细的分析：

Hbase Bulk Loading与HBase API方式分析和对比

bulk loading的过程主要分为两部分，一部分为数据生成，一部分为数据加载。

我们先来看看执行bulk loading的执行过程，然后再分析代码。下面是一个执行bulk loading的完整shell脚本：

CLASSPATH=./bulkload.jar:/etc/yarn1/conf:/etc/hdfs1/conf:/etc/hbase/conf:/usr/lib/hadoop/lib/*:/usr/lib/hadoop/.//*:/usr/lib/hadoop-hdfs/./:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-hdfs/.//*:/usr/lib/hadoop-yarn/lib/*:/usr/lib/hadoop-yarn/.//*:/usr/lib/hadoop-mapreduce/lib/*:/usr/lib/hadoop-mapreduce/.//*:/contrib/capacity-scheduler/*.jar
TABLE_NAME=CZSJ_hbase
RECORD_COUNT_FILE=/tmp/data1
RECORDS_PER_REGION=/tmp/output

echo "Start bulk load at `date`"
start=`date +%s`

echo "create hbase table=========="
hbase shell << EOF
    disable 'CZSJ_hbase'
    drop 'CZSJ_hbase'
    create 'CZSJ_hbase', 'cf', {SPLITS_FILE => 'region_start_row_info'}
EOF

jars=`ls ./lib`
for jar in $jars
do
    CLASSPATH="$CLASSPATH:./lib/$jar"
done

CLASSPATH=/usr/lib/hadoop/conf:/usr/lib/hbase/conf:$CLASSPATH
java -cp $CLASSPATH com.learn.hbasebulkload.HFileGenerator $TABLE_NAME $RECORD_COUNT_FILE $RECORDS_PER_REGION
java -cp $CLASSPATH com.learn.hbasebulkload.HFileLoader $TABLE_NAME $RECORDS_PER_REGION
hdfs dfs -rmr $RECORDS_PER_REGI