hive 第2天

第2天: hive的元数据存储、hive的数据存储、hive和RDBMS的区别
hive的数据库mysql需要定期备份。=--------必须做

metastroe类似hive的目录。
它存放了有个表、区、列、类型、
规则模型的所有信息。
并且它可以通过thrift接口进行修改和查询,
它为编译器提供高效的服务,所以他会存放在一个串通的
RDBMS,利用关心模型进行管理。这个信息非常重要,所以需要备份、
并且支持查询的可拓展性。】

2、查询编译器query Compiler
HIVEQL语句被处理,同串通的数据库编译器一样
都经历一下步骤:
解析parse---》类型检查和语法分析,type:checkand
semantic analysis  优化optimization
生成物理上的,真正的执行步骤。

3、执行引擎 execution engine:
根据任务的因爱关系,执行各种mapreduce任务,
一个mapreduce任务都呗序列化到一个plan。xml
文件中,然后加载到job cache中,并且各部分解析plan.xml
反序列化,并执行相关操作,将结果放入临时的位置,
再由DML转移到指定的位置。



hive的数据存储
首先hive没有专门的数据存储格式,也没有为数据建立索引,
用户可以非常自由的组织hive中的表,只需要在创建表的时候告诉
hive数据中的列分隔符和行分隔符,hive就可以解析数据,
其次,hive中所有的数据都存储子啊hidfs中,hive中包含一下数据模型
table ,external table partition bucket

hive中的table和数据库中的table在概念上是类似的,每一个table在hive中多有一个相应
的目录存储数据,例如,一个表小军
在hidfs,所有的table数据,不包括extemal table都保存在这个目录中。

partiton对应的数据库中的partition列的密集索引,但是hive中
partiton的组织方式,和数据库中的很不相同,在hive中,表中的一个partition对应于
表中的一个partition对应于表下的一个目录,所有的partition的数据都
存储在对应的目录中,
例如:xiaojun表中包含dt和city两个partiton,则对应于
dt

对数据的
外部表

hive和RDBMS比较
列分隔符 行分隔符

索引
hive需要暴力扫描整个数据、因此访问延迟较高,
hive不适合在线数据查询
执行
hive中大多数查询的执行是通过hadoop提供的mapreduce来实现的

可拓展,由于hive是简历在hadoop智商的,因此
最先进的并行数据库

数据库可以支持的数据规模比较小。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值