导入本地数据到 HBase和导入hdfs数据到hbase

Elik-hb

于 2024-04-24 10:15:22 发布

阅读量684

点赞数 18

分类专栏：大数据/hive/hbase 大数据/mapreduce 文章标签： hbase hdfs 数据库

本文链接：https://blog.csdn.net/qq_65099052/article/details/138149219

版权

大数据/hive/hbase 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

大数据/mapreduce

5 篇文章 0 订阅

订阅专栏

导入本地数据到 HBase

假设有一个名为user_data.csv的CSV文件，位于本地文件系统的file://home/user/data目录中，我们希望将其导入到HBase中的user_table表中。

准备数据：
- 确保你的本地数据文件user_data.csv的格式正确，并且包含了你想要导入到user_table表中的数据。
创建HBase表：
- 在HBase中创建一个表，其结构应该与user_data.csv中的数据结构相匹配。可以使用HBase Shell或HBase客户端工具来创建表。假设已经创建了名为user_table的表，包含了适当的列族和列。
使用HBase Import工具：
- 使用HBase提供的Import工具将本地数据导入到HBase表中。

示例本地导入到hbase：

假设你的user_data.csv文件的内容如下：

user_id,name,age,email
1,Alice,30,alice@example.com
2,Bob,35,bob@example.com
3,Charlie,25,charlie@example.com

创建HBase表：

假设在HBase中使用HBase Shell创建了名为user_table的表，包含了一个默认的列族cf：

create 'user_table', 'cf'

使用HBase Import工具：

使用HBase提供的Import工具将本地数据导入到HBase表中：

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns="HBASE_ROW_KEY,cf:name,cf:age,cf:email" user_table file://home/user/data/user_data.csv

这个命令将user_data.csv文件中的数据导入到了名为user_table的HBase表中。-Dimporttsv.separator=, 指定了CSV文件的分隔符为逗号，-Dimporttsv.columns="HBASE_ROW_KEY,cf:name,cf:age,cf:email" 指定了列族和列的映射关
系。

导入hdfs数据到 HBase

hdfs导入到hbase示例：

使用hadoop命名上传到hdfs：使用上面那个示例的数据，将数据导入到hdfs上，默认hdfs路径为/user/hadoop，这里我们创建一个data文件夹存储数据,我们上传在这里

 hadoop fs -put /home/user/data/data.txt /user/hadoop/data

使用HBase Import工具：

使用HBase提供的Import工具将本地数据导入到HBase表中：

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns="HBASE_ROW_KEY,cf:name,cf:age,cf:email" user_table /user/hadoop/data/user_data.csv