Hive简介

Hive的产生背景

  1. 由于MapReduce编程的不方便:包括但不限于开发、测试、需求变更
  2. 传统的关系型数据库人员(DBA)的需要——毕竟DBA已经存在并且优化了好多年,因此如果能像使用SQL一样来处理分析大数据就会很好了

因此,Hive产生了

Hive数据在HDFS上边,因此使用SQL之前需要进行数据化、文件映射成为表格,在这个引入一个概念——Schema(元数据信息)
Hive是什么
关注官网——apache hive.org
Hive 是一个构建在Hadoop之上的数据仓库软件,进行读写管理分布式存储的大数据数据集
Hive通常用于离线处理
流程就是
SQL==>Hive==>MapReduce==>YARN
Hive重要版本更新
08/07 Facebook
05/13 0.11 Stinger Phase 1 ORC HiveServer2
10/13 0.12 Stinger Phase 2 ORC improvement
04/14 0.13 Stinger Phase 3 Tez and Vectorized query engine
11/14 0.14 Stinger.next Phase 1: Cost-based optimizer
部署架构
Hive对比Hadoop不同的是Hive是客户端,没有集群
具体架构见下图
Hive架构
Hive与RDBMS的关系
都是面向SQL
都具有一定的实时性(MySQL对比Hive要快很多,因为每一次Hive进行SQL需要MP作业,效率比较低)
都有事务(大数据中没什么乱用)
分布式(MySQL也有集群概念,相对来说比较小)
数据量(MySQL数据量对比Hadoop小很多)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值