在hive中创建分区表,再关联到hdfs有关位置,而不需导入数据到hive表

最新推荐文章于 2022-08-03 15:59:27 发布

宝罗Paul

最新推荐文章于 2022-08-03 15:59:27 发布

阅读量9.8k

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_31598113/article/details/78298137

版权

本文介绍了如何在不导入数据到Hive的情况下，通过创建Hive外部表并与HDFS上的数据目录关联，实现直接通过Hive查询HDFS上的结构化数据。详细步骤包括创建外部表、关联HDFS目录以及验证关联是否成功。

摘要由CSDN通过智能技术生成

【需求】有时候我们不想导入数据到hive中，而是通过在hive中创建关联表的方式查询hdfs上的数据，之后就能通过hive客户端或者spark应用程序获取hive的数据了。

【原理】由于在hdfs中已存入了我们提前整理好的结构化数据(例如每条记录都是以逗号分隔)，那么在hive中建一个相同结构的表，再把此表关联到相应的hdfs目录就可以了。

下面一个小案例讲一下我的经验。步骤——

步骤一：在hive中创建外部表；步骤二：修改hive表,使其关联HDFS指定目录，就能将二者的数据自动关联；步骤三：验证是否关联成功

步骤一：在hive中创建外部表
hive> CREATE EXTERNAL TABLE email_ralationship (sender STRING, receiver STRING, copied STRING)
> PARTITIONED BY (dt STRING)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\073'
> STORED AS TEXTFILE;
OK
Time taken: 0.319 seconds
[注意点] 这里的字段分隔符'\073'是ascii码表里的分号表示，hive中不能用FIELDS TERMINATED BY ';' 否则报错

步骤二：修改hive表：使其关联HDFS指定目录，就能将二者的数据自动关联

# 报错：访问被拒绝
hive> ALTER TABLE email_ralationship ADD PARTITION (dt="2017-01-09")
> LOCATION "/apps/tony_kidkid/email_relationship/2017-01-09/2017-01-09";
FAILED: Execution Error, return code 1 from org.apache.

最低0.47元/天解锁文章

宝罗Paul

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
在hive中创建分区表,再关联到hdfs有关位置,而不需导入数据到hive表

【需求】有时候我们不想导入数据到hive中，而是通过在hive中创建关联表的方式查询hdfs上的数据，之后就能通过hive客户端或者spark应用程序获取hive的数据了。【原理】由于在hdfs中已存入了我们提前整理好的结构化数据(例如每条记录都是以逗号分隔)，那么在hive中建一个相同结构的表，再把此表关联到相应的hdfs目录就可以了。下面一个小案例讲一下我的经验。步骤——步骤一：在hive中创...
复制链接

扫一扫

专栏目录