了解MapReduce编程的都知道,MR程序三板斧:Mapper、Reduce、Driver。本身写代码比较繁琐,而且具有一定的重复工作量。为此Hive就诞生了.
Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。通过简单的Hive SQL就能实现统计功能。有了Hive,我们就可以谢谢sql语句就可以完成查询功能了,而不需要每次都写Mapper、Reduce、Driver等等,大大减少了代码量。
select count(*) from test group by id;
Hive的本质:Hive是一个Hadoop的客户端,用于将HSQL转换成MR程序。
- Hive每张表的数据都存放在HDFS上。
-
Hive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez) 。
-
执行程序运行在Yarn上。