hive是Apache的顶级项目,
3.1 hive是干什么
将SQL语句转换成MapReduce程序,并且提交到Yarn上运行,读取HDFS上的数据进行处理。
SQL语句:和MySQL数据库中SQL语句非常非常类似。
3.2概念:SQL on Hadoop
建立在Hadoop之上提供SQL方式分析的框架
- 最早的框架就是 Hive
facebook开源
- impala
- presto
- sparkSQL/shark
-kylin
3.3要学好hive,需要什么
Hadoop基础:HDFS、MapReduce、Yarn
MySQL数据库
DML(数据操作语言)、DDL(数据定义语言)
4回顾一下Wordcount程序
Hadoop的处理过程
Hadoop spark hive spark hive spark scala
分割、
(hadoop,1),(spark,1),(hive,1)…
合并,然后在相加得到结果
假设:我们将数据已经放到MySQL中:
需求:统计各个单词出现的频率
同样的结果,用SQL语句几行就O了,就是比MapReduce简单
5、hive软件版本的问题
其实使用的3大版本:
0.13.1:经典稳定的版本(2104)
1.2.1 :较新的一个版本
2.X:2017发布,
底层推荐使用Spark或者TeZ框架分析数据,而不是MapReduce
下载地址:http://apache.org/dist/hive