详细知识链接:https://blog.csdn.net/WindyQCF/article/details/119792511
Hive涉及的知识点如下图所示,本文将逐一讲解:

正文开始:
一. Hive概览
1.1 hive的简介
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce/Spark的任务的工具,甚至更进一步可以说hive就是一个MapReduce/Spark Sql的客户端
为什么要使用hive ?
主要的原因有以下几点:
-
学习MapReduce的成本比较高, 项目周期要求太短, MapReduce如果要实现复杂的查询逻辑开发的难度是比较大的。
-
而如果使用hive, hive采用操作接口类似SQL语法, 提高快速开发的能力. 避免去书写MapReduce,减少学习成本, 而且提供了功能的扩展
hive的特点:
-
可扩展 : Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
-
延展性 : Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
-
容错 : 良好的容错性,节点出现问题SQL仍可完成执行。

1万+

被折叠的 条评论
为什么被折叠?



