Apache Hive介绍-CSDN博客

本文链接：https://blog.csdn.net/qq_43462685/article/details/142141800

Apache Hive 是一个建立在 Hadoop 上的数据仓库工具，它允许使用类 SQL 语言（HiveQL）来查询和分析存储在 HDFS 或其他存储系统中的数据。Hive 的设计目标是使得用户能够以熟悉的 SQL 方式处理大数据，而无需深入了解 MapReduce 编程。以下是 Hive 的一些核心特性和功能：

类 SQL 查询语言：Hive 提供了 HiveQL，这是一种类似于 SQL 的查询语言，使得用户可以使用熟悉的 SQL 语法进行数据查询和分析。
数据仓库基础设施：Hive 支持数据的存储、管理和查询，适用于大规模数据处理。
与 Hadoop 生态系统集成：Hive 能够与 Hadoop 的其他组件（如 HDFS、YARN、MapReduce 等）无缝集成。
扩展性和灵活性：Hive 支持自定义函数（UDF）、存储过程和多种数据格式，如 Text、SequenceFile、RCFile、ORC 和 Parquet。
元数据存储：Hive 的元数据存储在外部数据库中，如 MySQL、PostgreSQL 或自带的 Derby，包含表结构、分区信息、列类型等。
支持复杂查询：HiveQL 支持复杂的查询操作，如多表连接、聚合、排序、分组等。
数据模型：Hive 的数据模型是关系型的，由数据库、表、行和列组成，但它的底层存储是 HDFS 上的文件系统。
执行引擎：Hive 的查询执行可以通过 MapReduce、Tez 或 Spark 等执行引擎进行。
Hive LLAP：Hive 2.0 引入了 LLAP（Low Latency Analytical Processing），通过持久查询基础设施和优化的数据缓存来提高查询性能。
Hive Replication：Hive 支持数据复制，用于备份和恢复。

Hive 适用于数据仓库任务，如 ETL、报告和数据分析，但不适用于需要实时查询的联机事务处理（OLTP）工作负载。它的设计注重于可扩展性、性能、容错能力以及与数据格式的松散耦合。Hive 的组件还包括 HCatalog 和 WebHCat，它们分别用于数据表和存储管理以及通过 REST 接口执行 Hive 作业和元数据操作。

Hive 的架构包括用户接口（CLI、JDBC/ODBC、Web UI）、元数据存储、驱动器（包括解析器、编译器、优化器和执行器）以及与 Hadoop 的集成。Hive 的工作原理是将用户的 HiveQL 查询转换为 MapReduce 作业或其他执行引擎的任务，然后提交到 Hadoop 集群上执行。

总的来说，Hive 是一个强大的工具，它使得对大数据集的分析变得更加容易和高效。

Hive详解：Apache Hive详解-CSDN博客