首先上终极解决方案:
create_namespace 'recom_ns'
create 'recom_ns:prefer_result','info', { NUMREGIONS => 10 , SPLITALGO => 'UniformSplit' }
hdfs dfs -put hbase_test.data /tmp/
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," \
-Dmapreduce.job.queuename='root.abc.abcdef' \
-Dhbase.fs.tmp.dir=/user/xxx/hbase_tmp \
-Dimporttsv.bulk.output=/tmp/hfile_tmp \
-Dimporttsv.columns='HBASE_ROW_KEY,info:proIds' \
'recom_ns:prefer_result' /tmp/hbase_test.data
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/hfile_tmp 'recom_ns:prefer_result'
最初执行命令是:
create_namespace 'recom_ns'
create 'recom_ns:prefer_result','info', { NUMREGIONS => 10 , SPLITALGO => 'UniformSplit' }
hdfs dfs -put hbase_test.data /tmp/
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," \
-Dimporttsv.bulk.output=/tmp/hfile_tmp \
-Dimporttsv.columns='HBASE_ROW_KEY,info:proIds' \
'recom_ns:prefer_result' /tmp/hbase_test.data
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/hfile_tmp 'recom_ns:prefer_result'
测试文件hbase_test.data内容如下:
3B218E0DFC59441AB629C06DEB927EB7,0
490AE0F3F8ED62A5761B66F70C01CEA6,0
13FD35FA8AC23FE13DAF90B975CF7C8D,1
D2645F5B815B97718B004562C3489D5A,1
95A96CE75150620AE3AB1594A5810B56,1
3FE35F14C0E8B09E817FB635030B2806,1
285A195793EA51BF172C53DDEBD0E760,1
B7912D4C9D284B006FE4F0E9A2FCD2B6,1
在建表时,我们使用了UniformSplit分区方式。具体hbase的预分区策略可以看下这篇帖子:https://www.cnblogs.com/cnblogs-syui/p/12566642.html
HBase Bulk Load 过程包括两个主要步骤:
- 将 准备的数据 生成 HFile :使用 importtsv 工具将数据转化为 HFile ,或者通过 HBase 提供的 HFileOutputFormat2 类编写 MapReduce 程序。
- 将 HFile 导入到 HBase 中:使用 LoadIncrementalHFiles 或者 completebulkload 将 HFile 导入到 HBase中。
- 最初报错:
Permission denied: user=yyfxuser1, access=WRITE, inode="/user":hdfs:hdfs:drwxr-xr-x
增加参数(hbase临时目录):
-Dhbase.fs.tmp.dir=/user/xxx/hbase_tmp
- 接着报错:
Application rejected by queue placement policy
增加参数(yarn队列,具体看自己环境的配置是否要求):
-Dmapreduce.job.queuename='root.abc.abcdef'
大功告成!!!
-----------------------------------
附上一些常用hbase命令:
list_namespace_tables 'recom_ns'
get 'recom_ns:prefer_result','1B7CF8D48653FDC3230992F75DDD2908'
get 'recom_ns:prefer_result','00C3FF2DDF0C5C1D8232C93241F88A60'
list_namespace_tables 'recom_ns'
describe 'recom_ns:prefer_result'
scan 'recom_ns:prefer_result',{LIMIT=>5}
get 'recom_ns:prefer_result','1B7CF8D48653FDC3230992F75DDD2908'