1. Hive简介
Hive是什么
Hive 构建在 Hadoop 之上,提供以下功能:
-
通过类 SQL 指令轻松访问数据的工具,从而实现数据仓库任务,例如:提取/转换/加载(ETL),报告和数据分析。
-
一种将结构强加于各种数据格式的机制。
-
直接访问存储在 HDFS 或其他数据存储系统(例如:HBase)中的文件。
-
通过Tez, Spark, MapReduce执行查询。
-
HPL-SQL的过程语言。
-
通过Hive LLAP, YARN, Slider进行亚秒级查询检索。
Hive 提供标准的 SQL 功能,Hive 的 SQL 也可以通过用户定义的函数(UDF),用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。
换句话来说,Hive 是基于 Hadoop 的一个数据仓库工具,是用来管理数据仓库的。可以将结构化的数据文件映射为一张数据库表,并提供类 sql 的查询功能。
从如下 Hadoop 生态圈图中可以看出 Hive 所扮演的角色。
Hive如何将结构化的数据文件映射成一张表
结构化的数据文件如何理解?
-
数据文件中有固定的字段