在本文中,我们将学习如何将压缩数据(gzip和bzip2格式)加载到Hive表中。
1)在本地文件系统上创建一个名为 employee_gz
的文件,并使用 gzip
命令将其转换为 gz
格式的文件。
[root@master /hdfs] cat employee_gz
Balu,300000,10,2014-02-01
Radha,350000,15,2014-02-05
Nitya,325000,15,2015-02-06
Bubly,350000,25,2015-05-01
Pandu,300000,35, 2014-06-01
Nirupam,350000,40,2016-01-01
Sai,400000,25,2015-05-02
Bala,400000,20,2016-10-10
示例:
2)压缩 employee_gz
文件
[root@master /hdfs] gzip employee_gz
[root@master /hdfs] ll
[root@master /hdfs] employee_gz.gz
3)创建 Hive 表
create table employee_gz(name string,salary int,deptno int,DOJ date)
row format delimited fields terminated by ',';
4)将数据 employee_gz
从本地文件系统加载到 Hive 表 employee_gz
中
下面的代码将 /home/hdfs/employee_gz.gz
中的 GZ
压缩数据加载到表 employee_gz
中
load data local inpath '/home/hdfs/employee_gz.gz' into table employee_gz;
Hive自动识别压缩数据并将其加载到表中。我们不需要以gzip格式指定它。Hive还在运行选择查询时自动解压缩数据。