深入学习《Programing Hive》：初识Hive

最新推荐文章于 2024-09-18 12:48:23 发布

iteye_1868

最新推荐文章于 2024-09-18 12:48:23 发布

阅读量109

点赞数

分类专栏： Hive 文章标签： Hive 数据仓库 Hive QL

本文链接：https://blog.csdn.net/iteye_1868/article/details/82507098

版权

Hive 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Hive是一个基于Hadoop分布式系统上的数据仓库，最早是由Facebook公司开发的，Hive极大的推进了Hadoop ecosystem在数据仓库方面上的发展。
Facebook的分析人员中很多工程师比较擅长而SQL而不善于开发MapReduce程序，为此开发出Hive，并对比较熟悉SQL的工程师提供了一套新的SQL-like方言——Hive QL。
Hive SQL方言特别和MySQL方言很像，并提供了Hive QL的编程接口。Hive QL语句最终被Hive解析器引擎解析为MarReduce程序，作为job提交给Job Tracker运行。这对MapReduce框架是一个很有力的支持。
Hive是一个数据仓库，它提供了数据仓库的部分功能：数据ETL(抽取、转换、加载)工具，数据存储管理，大数据集的查询和分析能力。
由于Hive是Hadoop上的数据仓库，因此Hive也具有高延迟、批处理的的特性，即使处理很小的数据也会有比较高的延迟。故此，Hive的性能就和居于传统数据库的数据仓库的性能不能比较了。
Hive不提供数据排序和查询的cache功能，不提供索引功能，不提供在线事物，也不提供实时的查询功能，更不提供实时的记录更性的功能，但是，Hive能很好地处理在不变的超大数据集上的批量的分析处理功能。Hive是基于hadoop平台的，故有很好的扩展性(可以自适应机器和数据量的动态变化)，高延展性(自定义函数)，良好的容错性，低约束的数据输入格式。
下面我们来看一下Hive的架构和执行流程以及编译流程：
[img]http://dl.iteye.com/upload/attachment/0084/0889/80b44844-350f-3493-88f3-632d8abafc44.jpg[/img]
[img]http://dl.iteye.com/upload/attachment/0084/0893/d63462d3-3c65-3115-a710-9142d61b812f.jpg[/img]

用户提交的Hive QL语句最终被编译为MapReduce程序作为Job提交给Hadoop执行。