Hive学习之Hive基本概念及实践

最新推荐文章于 2024-07-24 20:46:25 发布

skyWalker_ONLY

最新推荐文章于 2024-07-24 20:46:25 发布

阅读量5.4k

点赞数

分类专栏： Hive 勤奋的Hive 文章标签： Hive CLI Hive分区 Hive桶延迟

本文链接：https://blog.csdn.net/skywalker_only/article/details/26821663

版权

勤奋的Hive 同时被 2 个专栏收录

33 篇文章 17 订阅 ¥9.90 ¥99.00

订阅专栏

Hive

32 篇文章 31 订阅 ¥9.90 ¥99.00

订阅专栏

本文介绍了Hive作为基于Hadoop的数据仓库，其主要功能包括数据汇总、分析和查询，使用HiveQL进行SQL-like查询。尽管Hive具有较高的查询延迟，不适合实时查询，但它通过数据库、表、分区和桶的概念优化大数据处理。分区和桶能有效减少查询处理的数据量，提高分析速度。文中还展示了通过Hive CLI创建表、分区的实际操作，并解释了HDFS上的存储结构。

摘要由CSDN通过智能技术生成

Hive是基于Hadoop的数据仓库，而Hadoop为数据的存储和处理提供了很强的水平扩展和容错功能。Hive能够轻松地汇总数据，特定查询和分析大数据，提供了简单的查询语言HiveQL，该语言基于SQL，这使得熟悉SQL的用户可以执行特定查询，容易得汇总和分析数据。同时Hive QL允许map/reduce程序员能够插入定制的mapper和reducer去执行更加复杂的分析，HiveQL的内建功能可能并不支持这些复杂的分析。

Hadoop是一个批处理系统，运行在Hadoop上的作业常常有较高的延迟并且在作业的提交和调度时出现大量的开销。这些导致了Hive查询的延迟往往会很高（分钟），即使数据集非常小（几百兆），因为Hive是建立在Hadoop之上的。所以Hive是不够与Oracle之类的系统相比较的，在Oracle中数据分析是建立在非常小的数据上的，但是分析进行更多次数的迭代，迭代之间的响应时间不超过几分钟。Hive的目标是在小数据集上进行交互式数据浏览、查询或者测试查询时提供可以接受的（不是最佳的）延迟。Hive不适于在线交易处理，也不提供实时查询和行级更新，最好用于不可修改的大数据集上的批量作业，比如web日志。

按照粒度大小的次序，Hive中的数据被组织为：