HBase Import TSV
所谓 import tsv 就是固定格式的导入工具,导入格式以 \t 分割的文件
如果想要完成以上的功能, 则需要创建一张表, 用于接收数据
1. 创建表
create 'import_tsv','info','more'
2. 准备数据
1 xiaohei beijing 22
2 xiaolan shanghai 23
3 xiaolv huoguoshan 99
3. 创建数据至hdfs
hdfs dfs -put hbase_import_tsv /testdata/
4. 查看示例,如何进行导入,
hadoop jar $HBASE_HOME/lib/hbase-server-1.1.2.jar
5. 选择importtsv ,继续查看下一步
hadoop jar $HBASE_HOME/lib/hbase-server-1.1.2.jar importtsv
6. 然后按照指定格式进行书写
Dimporttsv.columns=rowkey,列族:列名,列族:列名...... 分别对应输入数据按照 \t 分割的数据
hadoop jar $HBASE_HOME/lib/hbase-server-1.1.2.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,info:name,more:location,more:age import_tsv /testdata/hbase_import_tsv
7. 等待MR任务运行完成, 查看表数据
# 实际生产环境,对表进行扫描要注意 加一些条件,这里数据少直接查看结果
scan 'import_tsv'
HBase Import CSV
csv的格式就是按照逗号来进行分割的 , 与TSV的方式一样, 在最后一步进行导入时, 多了一个参数 -Dimporttsv.separator=,
1. 创建一张表, 用于接收csv格式的数据
create 'import_csv','info','more'
2. 准备测试数据
1,xiaohei,beijing,22
2,xiaolan,shanghai,23
3,xiaolv,huoguoshan,99
3. 将测试数据上传至HDFS
hdfs dfs -put hbase_import_csv /testdata/
4. 导入
hadoop jar $HBASE_HOME/lib/hbase-server-1.1.2.jar importtsv -Dimporttsv.separator=, -Dimporttsv.columns=HBASE_ROW_KEY,info:name,more:location,more:age import_csv /testdata/hbase_import_csv
5. 查看结果