背景
前面我们利用MapReduce实现了单词统计,但是比较的繁琐和复杂,要实现Map和Reduce方法。
我们来看看Hive是怎么实现单词统计的呢,一条sql语句搞定。
Hive是什么
- Hive是一个SQL解析引擎,将SQL语句转化成MR Job,然后在Hadoop平台上运行。
- Hive不存储数据,完全依赖HDFS和MapReduce。
- Hive中的表是纯逻辑表,就只是表的定义等,本质就是Hadoop的目录和文件。
Hive基本原理
- 执行sql语句
- Hive把sql语句转化成MR Job提交给Hadoop
- Hadoop开始执行MR Job
Hive的实现流程
- 准备好数据,格式如下
hadoop apache spark
hadoop linux linux spark
hadoop apache hadoop spark
linux linux spark spark
- 在hive中创建words表
create table words