MapReduce编程的不便性以及Hive的产生背景
1)MapReduce繁琐
Mapper
Reducer
Driver
package
2)大量数据都存放在HDFS,如何快速的对HDFS上的文件进行统计分析操作?
学Java、学MapReduce
DBA: SQL
HDFS: 仅仅只是一个纯的文本文件而已,并没有schema的概念
没有schema,那么就办法使用sql进行查询
1)MapReduce繁琐
Mapper
Reducer
Driver
package
2)大量数据都存放在HDFS,如何快速的对HDFS上的文件进行统计分析操作?
学Java、学MapReduce
DBA: SQL
HDFS: 仅仅只是一个纯的文本文件而已,并没有schema的概念
没有schema,那么就办法使用sql进行查询
如何为HDFS上的文件添加Schema信息
Hive:使用一种类似于SQL的查询语言直接作用在分布式存储系统的文件之上
facebook开源,解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive的数据是存放在HDFS
Hive的计算是通过yarn和mr
引擎: Hive QL ==> MapReduce 详细过程参考:http://blog.csdn.net/qq_32252917/article/details/78198832
Hive底层:MapReduce、Spark(Hive on Spark)、Tez
压缩/存储格式
Hive发展历程:
07/08 facebook
13/05 hive-0.11 Stinger Phase 1 ORC/HiveServer2
13/10 hive-0.12 Stinger Phase 2 ORC improvement(改善)
14/04 hive-0.13 Stinger Phase 3 Tez/Vectorized query engine(向量化查询)
14/11 hive-0.14 Stinger.next Phase 1 Cost-based optimizer(CBO)
...... Hive-1/2
The Stinger Initiative making Apache Hive 100 times faster