hive 第2天

最新推荐文章于 2024-10-18 12:31:44 发布

冥想者-定

最新推荐文章于 2024-10-18 12:31:44 发布

阅读量836

点赞数

分类专栏： __Hive

__Hive 专栏收录该内容

66 篇文章 1 订阅

订阅专栏

第2天： hive的元数据存储、hive的数据存储、hive和RDBMS的区别
hive的数据库mysql需要定期备份。=--------必须做

metastroe类似hive的目录。
它存放了有个表、区、列、类型、
规则模型的所有信息。
并且它可以通过thrift接口进行修改和查询，
它为编译器提供高效的服务，所以他会存放在一个串通的
RDBMS，利用关心模型进行管理。这个信息非常重要，所以需要备份、
并且支持查询的可拓展性。】

2、查询编译器query Compiler
HIVEQL语句被处理，同串通的数据库编译器一样
都经历一下步骤：
解析parse---》类型检查和语法分析，type：checkand
semantic analysis 优化optimization
生成物理上的，真正的执行步骤。

3、执行引擎 execution engine：
根据任务的因爱关系，执行各种mapreduce任务，
一个mapreduce任务都呗序列化到一个plan。xml
文件中，然后加载到job cache中，并且各部分解析plan.xml
反序列化，并执行相关操作，将结果放入临时的位置，
再由DML转移到指定的位置。

hive的数据存储
首先hive没有专门的数据存储格式，也没有为数据建立索引，
用户可以非常自由的组织hive中的表，只需要在创建表的时候告诉
hive数据中的列分隔符和行分隔符，hive就可以解析数据，
其次，hive中所有的数据都存储子啊hidfs中，hive中包含一下数据模型
table ，external table partition bucket

hive中的table和数据库中的table在概念上是类似的，每一个table在hive中多有一个相应
的目录存储数据，例如，一个表小军
在hidfs，所有的table数据，不包括extemal table都保存在这个目录中。

partiton对应的数据库中的partition列的密集索引，但是hive中
partiton的组织方式，和数据库中的很不相同，在hive中，表中的一个partition对应于
表中的一个partition对应于表下的一个目录，所有的partition的数据都
存储在对应的目录中，
例如：xiaojun表中包含dt和city两个partiton，则对应于
dt

对数据的
外部表

hive和RDBMS比较
列分隔符行分隔符

索引
hive需要暴力扫描整个数据、因此访问延迟较高，
hive不适合在线数据查询
执行
hive中大多数查询的执行是通过hadoop提供的mapreduce来实现的

可拓展，由于hive是简历在hadoop智商的，因此
最先进的并行数据库

数据库可以支持的数据规模比较小。