利用importtsv向HBase批量插入数据

最新推荐文章于 2024-01-04 15:53:27 发布

xcc_233

最新推荐文章于 2024-01-04 15:53:27 发布

阅读量476

点赞数

分类专栏： hadoop hbase

本文链接：https://blog.csdn.net/touziss/article/details/104758772

版权

hadoop 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

hbase

4 篇文章 0 订阅

订阅专栏

参考：
简书——使用importtsv导入CSV数据到HBase
用importtsv处理，可以快速、批量导入数据，测试一下导入一百五十多万条的数据，一共只用了十几秒，非常快。
缺点非常明显，这个文件要求是结构化的，也就是列要对齐，这个其实就丧失了NOSQL的特征，但是我只是做一下测试，其实可以做到结构化数据，所以用这个工具非常有效。
步骤

数据文件的结构大概是这样的

数据内容
一个ID对应一个位置，包括R Lat Lon，对应三个能段的粒子通量，flux1 flux2 flux3

数据文件上传到hdfs

./hdfs dfs -put ~/Desktop/EncodeData/EncodeData_part1.dat /EncodeData

（桌面上Data文件夹下的Data_part1.dat文档上传到hdfs的/Data文件夹）

在HBase shell里创建表

hbase > create 'Data','coid','Dcode','Loc','flux'

利用importtsv命令把数据加载到hbase中
importtsv命令的默认分隔符是制表键 \t，我的数据的分隔符也是，所以不需要指明分隔符。
在hbase/bin目录下执行

.\hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=HBASE_ROW_KEY,coid:latloncode,Dcode:latcode,Dcode:linecode,Dcode:loncode,Loc:R,Loc:Lat,Loc:Lon,flux:flux1,flux:flux2,flux:flux3 Data /EncodeData/EncodeData.dat

xcc_233

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
利用importtsv向HBase批量插入数据

用importtsv处理，可以快速、批量导入数据，测试一下导入一百五十多万条的数据，一共只用了十几秒，非常快。缺点非常明显，这个文件要求是结构化的，也就是列要对齐，这个其实就丧失了NOSQL的特征，但是我只是做一下测试，其实可以做到结构化数据，所以用这个工具非常有效。步骤数据文件的结构大概是这样的数据文件上传到hdfs./hdfs dfs -put ~/D...
复制链接

扫一扫

专栏目录