hive表导入数据的几种方式

最新推荐文章于 2024-07-27 11:00:39 发布

程序猿渣渣帅

最新推荐文章于 2024-07-27 11:00:39 发布

阅读量2k

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/l1394049664/article/details/81545906

版权

hive 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、通过LOAD DATA 命令

1、不指定分区

1）、从本地文件系统中导入数据到Hive表

2）、从HDFS上导入数据到Hive表

2、指定分区

二、把select查询的结果插入到指定的表中

1、静态分区导入

2、动态分区导入

3、多表插入

三、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中create table .. as select

四、把数据文件直接挂载到hive表的hdfs目录下

创建一个简单的hive表

create table test(
id int, name string,tel string)
partitioned by (age int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

一、通过LOAD DATA 命令

LOAD DATA （LOCAL ）INPATH ... (OVERWRITE) INTO TABLE tablename

LOCAL ：有这个关键字说明是本地的文件，没有的话说明是hdfs上的文件；

OVERWRITE：有这个关键字说明是是覆盖，没有的话是追加；

1、不指定分区

1）、从本地文件系统中导入数据到Hive表

LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE test;

使用LOCAL代表的是本地目录下的文件

从本地文件系统中将数据导入到Hive表的过程中，其实是先将数据临时复制到HDFS的一个目录下（典型的情况是复制到上传用户的HDFS home目录下,比如/home/user/），然后再将数据从那个临时目录下移动（注意，这里说的是移动，不是复制！）到对应的Hive表的数据目录里面。

2）、从HDFS上导入数据到Hive表

而不带LOCAL的则表示使用的是Hadoop上的HDFS上路径下的文件，如

LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE test;

2、指定分区

LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE test PARTITION (ds='2008-08-15');

分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如test表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive /warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。