Hive概述及入门

MapReduce编程的不便性以及Hive的产生背景
1)MapReduce繁琐
Mapper
Reducer
Driver
package

2)大量数据都存放在HDFS,如何快速的对HDFS上的文件进行统计分析操作?
学Java、学MapReduce
DBA: SQL
HDFS: 仅仅只是一个纯的文本文件而已,并没有schema的概念
没有schema,那么就办法使用sql进行查询

如何为HDFS上的文件添加Schema信息

Hive:使用一种类似于SQL的查询语言直接作用在分布式存储系统的文件之上
facebook开源,解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive的数据是存放在HDFS
Hive的计算是通过yarn和mr
引擎: Hive QL ==> MapReduce    详细过程参考:http://blog.csdn.net/qq_32252917/article/details/78198832
Hive底层:MapReduce、Spark(Hive on Spark)、Tez
压缩/存储格式


Hive发展历程:
07/08  facebook
13/05  hive-0.11  Stinger Phase 1  ORC/HiveServer2
13/10  hive-0.12  Stinger Phase 2  ORC improvement(改善)
14/04  hive-0.13  Stinger Phase 3  Tez/Vectorized query engine(向量化查询)
14/11  hive-0.14  Stinger.next Phase 1  Cost-based optimizer(CBO)
......  Hive-1/2


The Stinger Initiative making Apache Hive 100 times faster



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值