Hive系列一(什么是Hive、为什么需要Hive)

了解MapReduce编程的都知道,MR程序三板斧:Mapper、Reduce、Driver。本身写代码比较繁琐,而且具有一定的重复工作量。为此Hive就诞生了.

Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。通过简单的Hive SQL就能实现统计功能。有了Hive,我们就可以谢谢sql语句就可以完成查询功能了,而不需要每次都写Mapper、Reduce、Driver等等,大大减少了代码量。

select count(*) from test group by id;

Hive的本质:Hive是一个Hadoop的客户端,用于将HSQL转换成MR程序。

  1. Hive每张表的数据都存放在HDFS上。
  2. Hive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez) 。

  3. 执行程序运行在Yarn上。 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值