Hive功能介绍
hive是Apache的顶级项目,
hive是干什么
将SQL语句转换成MapReduce程序,并且提交到Yarn上运行,读取HDFS上的数据进行处理。
SQL语句:和MySQL数据库中SQL语句非常非常类似。
概念:SQL on Hadoop
建立在Hadoop之上提供SQL方式分析的框架
- 最早的框架就是 Hive
facebook开源
- impala
- presto
- sparkSQL/shark
-kylin
要学好hive,需要什么
Hadoop基础:HDFS、MapReduce、Yarn
MySQL数据库
DML(数据操作语言)、DDL(数据定义语言)
https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation
案例:统计单词出现频率。
使用mysql完成:
sql语句:
SELECT
word,count(word) count
FROM
tb_word
GROUP BY
word