hive学习笔记

hive 对海量数据进行管理

简单来说hive是建立在hdfs上的数据仓库,并且对数据进行分析处理。

https://cwiki.apache.org/confluence/display/Hive/Home

特点
1.一种工具,通过sql访问hadoop之上的数据。数据仓库软件,大型数据的读写和计算,直接建立与hadoop之上的。
2.一种机制,多种数据结构
3.数据访问,hdfs中的文件或者文件存储系统【hbase 两种不同的访问方式】
4.查询方式,类sql hiveql
5.查询引擎 mr【默认】 spark Tez(将hsql转化成mr的任务 select * from 不转化??)
6.支持存储过程 hpl/sql实现,简化了数仓迁移hive的过程
7.LLAP live long and process 实现内存计算,2.0之后

整体架构
1.通过【CLI:命令行接口(常用),JDBC,Web UI】访问hive
2.metastore【源数据】:存放在关系型数据库中 名 分区列 属性【内表 外表】 
3.driver:包含了对sql解释 执行 编译 优化 hql语句转化成查询计划【存在hdfs中 由mr执行】

4.数据存在hdfs上计算有mr完成

元数据的连接方式
1.单用户模式:derby只能允许一个时间open一个cli的会话
2.多用户模式:常用 通常mysql
3.远程模式:非java的运程数据库,通过metastore server 访问mysql

hive & impala
1.impala[使用商业分布式查询引擎,实现实时查询],直接从hbase hdfs 中查询,降低了延迟。每一个节点上都有一个impalad,state store追踪impalad的位置信息,创建多个线程,【更适合实时查询】
2.hive【延迟高】,【hive更适合长时间的p出来】,先使用hive转化,在使用impala分析

spark sql【hive on spark】提高hive的性能














  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值