把数据导入hbase这块当时花了我好大精力,试了四种方法都不成功,差点就用shell一个个生敲进去了。好在这段日子也找到了一些方法,下面就主要讲两种批量导入的方法吧:
(1)ImportTsv
这是Hbase提供的一个命令行工具,可以将存储在HDFS上的自定义分隔符(默认\t)的数据文件,通过一条命令方便的导入到HBase表中,对于大数据量导入非常实用,其中包含两种方式将数据导入到HBase表中:
第一种是使用TableOutputformat在reduce中插入数据。
第二种是先生成HFile格式的文件,再执行一个叫做CompleteBulkLoad的命令,将文件move到HBase表空间目录下,同时提供给client查询。
当时由于时间紧迫,用了第一种比较简单的。