Hive个人心得笔记之数据库和数据仓库

最新推荐文章于 2022-07-29 14:59:11 发布

萌新Java程序猿

最新推荐文章于 2022-07-29 14:59:11 发布

阅读量637

点赞数 1

分类专栏： HIVE 大数据Hadoop

本文链接：https://blog.csdn.net/LiuY521/article/details/94859797

版权

19 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

一、数据仓库和数据库对比

数据库属于OLTP系统（Online Transaction Processing）联机事务处理系统。涵盖了企业大部分的日常操作，如购物、库存、制造、银行、工资、注册、记账等。比如Mysql，oracle等关系型数据库；数据仓库属于OLAP系统。（Online Analytical Processing）联机分析处理系统。Hive，Hbase等
OLTP是面向用户的、用于程序员的事务处理以及客户的查询处理；OLAP是面向市场的，用于知识工人（经理、主管和数据分析人员）的数据分析
OLAP通常会集成多个异构数据源的数据，数量巨大；OLTP系统的访问由于要保证原子性，所以有事务机制和恢复机制
OLAP系统一般存储的是历史数据，所以大部分都是只读操作，不需要事务；OLTP系统具有较强的事务

Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等

这三个组件用于：HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行

Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成

通过客户端提交一条Hql语句
通过complier（编译组件）对Hql进行词法分析、语法分析。在这一步，编译器要知道此hql语句到底要操作哪张表
去元数据库找表信息
得到信息
complier编译器提交Hql语句分析方案
执行流程
1. executor 执行器收到方案后，执行方案（DDL过程）。在这里注意，执行器在执行方案时，会进行判断：如果当前方案不涉及到MR组件，比如为表添加分区信息、比如字符串操作等，比如简单的查询操作等，此时就会直接和元数据库交互，然后去HDFS上去找具体数据；如果方案需要转换成MR job，则会将job 提交给Hadoop的JobTracker
2. MR job完成，并且将运行结果写入到HDFS上
3. 执行器和HDFS交互，获取结果文件信息
如果客户端提交Hql语句是带有查询结果性的，则会发生：7-8-9步，完成结果的查询。