Hive：大数据的SQL仓库详解

2401_85442214

已于 2024-06-28 13:32:58 修改

阅读量496

点赞数 16

文章标签：大数据 hive sql

于 2024-06-28 13:23:52 首次发布

本文链接：https://blog.csdn.net/2401_85442214/article/details/140040792

版权

一、Hive简介

Apache Hive是一个建立在Hadoop之上的数据仓库基础设施，它提供了类SQL查询语言HiveQL（HQL）来查询和管理存储在Hadoop集群中的大数据。Hive允许不熟悉Java MapReduce程序员也能编写大数据的复杂查询，并且这些查询可以转换为在Hadoop上执行的MapReduce任务。Hive可以处理结构化和非结构化的数据，并且支持各种文件格式，如TextFile、SequenceFile、Parquet等。

二、Hive环境配置

Hive环境配置主要包括安装Hive、配置Hive环境变量、设置Hive的元数据存储（如MySQL）等。以下是一个简化的Hive环境配置步骤：

下载并解压Hive安装包。
配置Hive环境变量，如HIVE_HOME和PATH。
配置Hive的hive-site.xml文件，指定元数据存储位置等。

三、Hive产生背景与架构设计

Hive的产生背景是为了解决Hadoop生态系统中MapReduce编程的复杂性，提供一个更简单的数据查询方式。Hive的架构设计采用了客户端-服务器模式，包括用户接口层、元数据存储层、执行引擎层和Hadoop数据存储层。

四、Hive存储模型与数据类型

Hive支持行式存储和列式存储（如Parquet），并提供了丰富的数据类型，包括基本数据类型（如INT、STRING）、复杂数据类型（如ARRAY、MAP、STRUCT）等。

五、Hive表库操作

Hive表库操作主要包括创建数据库、切换数据库、删除数据库、创建表、删除表等。以下是一个创建表的示例：

	`CREATE TABLE IF NOT EXISTS employees (`
	`id INT,`
	`name STRING,`
	`salary FLOAT,`
	`subordinates ARRAY<STRING>,`
	`address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>`
	`)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY '\t'`
	`STORED AS TEXTFILE;`

六、Hive内部表与外部表

Hive内部表（管理表）由Hive完全管理，数据存储在Hive的默认数据仓库目录下。删除内部表时，Hive会同时删除表对应的数据。而外部表的数据存储在用户指定的位置，Hive仅维护元数据。以下是一个创建外部表的示例：

	`CREATE EXTERNAL TABLE IF NOT EXISTS external_employees (`
	`id INT,`
	`name STRING`
	`)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY '\t'`
	`LOCATION '/user/hive/external_employees';`

七、Hive表库操作

Hive的表库操作包括创建数据库、切换数据库、删除数据库、创建表、删除表等。以下是创建数据库、创建表和删除表的示例：

创建数据库：

CREATE DATABASE IF NOT EXISTS my_database;

切换数据库：

USE my_database;

创建表：

假设我们有一个简单的员工表employees，包含ID、姓名和薪水：

	`CREATE TABLE IF NOT EXISTS employees (`
	`id INT,`
	`name STRING,`
	`salary FLOAT`
	`)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY ','`
	`STORED AS TEXTFILE;`

在这个示例中，我们使用了ROW FORMAT DELIMITED和FIELDS TERMINATED BY ','来指定数据的行格式和字段分隔符。

删除表：

DROP TABLE IF EXISTS employees;

八、Hive内部表与外部表

Hive内部表（管理表）由Hive完全管理，而外部表的数据存储在用户指定的位置。以下是创建内部表和外部表的示例：

创建内部表：

	`CREATE TABLE IF NOT EXISTS employees (`
	`id INT,`
	`name STRING,`
	`salary FLOAT`
	`)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY ','`
	`STORED AS TEXTFILE;`

创建外部表：

假设我们有一个位于HDFS路径/user/hive/external_employees/的外部员工表，我们可以这样创建：

	`CREATE EXTERNAL TABLE IF NOT EXISTS external_employees (`
	`id INT,`
	`name STRING,`
	`salary FLOAT`
	`)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY ','`
	`LOCATION '/user/hive/external_employees/';`

九、Hive分区与分桶

Hive的分区和分桶是优化查询性能的重要特性。以下是创建分区表和分桶表的示例：

创建分区表：

假设我们按年份对员工表进行分区：

	`CREATE TABLE IF NOT EXISTS employees_partitioned (`
	`id INT,`
	`name STRING,`
	`salary FLOAT,`
	`hire_year INT`
	`)`
	`PARTITIONED BY (hire_year)`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY ','`
	`STORED AS TEXTFILE;`

	`-- 加载数据到分区`
	`LOAD DATA LOCAL INPATH '/path/to/employees_2020.csv' INTO TABLE employees_partitioned PARTITION (hire_year=2020);`

创建分桶表（注意：分桶表通常与`CLUSTERED BY`和`DISTRIBUTED BY`子句一起使用）：

	`CREATE TABLE IF NOT EXISTS employees_bucketed (`
	`id INT,`
	`name STRING,`
	`salary FLOAT`
	`)`
	`CLUSTERED BY (id) INTO 4 BUCKETS`
	`ROW FORMAT DELIMITED`
	`FIELDS TERMINATED BY ','`
	`STORED AS ORC; -- 通常使用ORC或Parquet格式来存储分桶表`

请注意，分桶表在创建时不会立即生效，通常需要在加载数据时指定分桶的列和桶的数量。在Hive 0.10及更高版本中，可以使用CLUSTERED BY和INTO子句来指定分桶的列和桶的数量。此外，分桶表通常与ORC或Parquet等列式存储格式一起使用，以进一步提高查询性能。

十、数据关联操作

Hive支持多种数据关联操作，如JOIN、LEFT JOIN、RIGHT JOIN等。以下是一个JOIN操作的示例：

	`SELECT a.id, a.name, b.salary`
	`FROM employees a`
	`JOIN departments b ON a.department_id = b.id;`

十一、数据关联操作

Hive支持多种数据关联操作，如JOIN、LEFT JOIN、RIGHT JOIN等。以下是一个INNER JOIN操作的示例：

	`SELECT a.id, a.name, b.department_name`
	`FROM employees a`
	`JOIN departments b ON a.department_id = b.id;`

十二、数据排序

Hive支持使用ORDER BY和SORT BY对数据进行排序。以下是ORDER BY的示例：

	`SELECT id, name, salary`
	`FROM employees`
	`ORDER BY salary DESC;`

十三、聚合操作

Hive提供了丰富的聚合函数，如COUNT、SUM、AVG、MAX、MIN等。以下是一个使用SUM和AVG的聚合操作示例：

	`SELECT department_id, SUM(salary) AS total_salary, AVG(salary) AS avg_salary`
	`FROM employees`
	`GROUP BY department_id;`

十四、窗口函数

Hive支持窗口函数（Window Functions），如ROW_NUMBER()、RANK()、DENSE_RANK()等。以下是一个使用ROW_NUMBER()的窗口函数示例：

	`SELECT id, name, salary,`
	`ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY salary DESC) AS salary_rank`
	`FROM employees;`

在这个示例中，ROW_NUMBER()函数为每个部门中的员工根据薪水降序分配了一个唯一的排名（salary_rank）。PARTITION BY子句定义了窗口函数的分区，即每个部门是一个独立的分区，而ORDER BY子句则定义了每个分区内的排序方式。

2401_85442214

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Hive：大数据的SQL仓库详解

Apache Hive是一个建立在Hadoop之上的数据仓库基础设施，它提供了类SQL查询语言HiveQL（HQL）来查询和管理存储在Hadoop集群中的大数据。Hive允许不熟悉Java MapReduce程序员也能编写大数据的复杂查询，并且这些查询可以转换为在Hadoop上执行的MapReduce任务。Hive可以处理结构化和非结构化的数据，并且支持各种文件格式，如TextFile、SequenceFile、Parquet等。
复制链接

扫一扫