1、Hive是什么?
基于Hadoop的开源的数据仓库工具,用于处理海量结构化数据。
Hive把HDFS中结构化的数据映射成表。
Hive通过把HiveSQL进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成数据分析与处理。
由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。
2、Hive与传统数据库的比较
说明:
- 数据仓库/数据湖主要是用来数据分析的,对企业中的决策起到关键性
的作用。 - 数据仓库本身不产生数据,也不消耗数据;其数据是从外部来的,并且
主要提供给外部使用。 - 数据仓库是面向主题性来构建的,一般一个数仓都有一个特定的目的。
- 数据仓库集成了众多类型的数据,分成了许多不同的层次。
- 数据仓库中的历史数据一般不会改变,因为其主要用来记录已经发生的
事实的数据。 - 数据仓库上层的分析是可能会发生变化的,体现了分析的灵活性。
- 面