Hive的基本介绍

最新推荐文章于 2024-08-27 23:41:00 发布

星瀚光晨

最新推荐文章于 2024-08-27 23:41:00 发布

阅读量457

点赞数

分类专栏： Hive系列文章标签： hive big data sql

本文链接：https://blog.csdn.net/qq_41878423/article/details/120645658

版权

Hive系列专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Hive的基本介绍

1. hive产生的原因
2. hive是什么
3. 数据仓库--Hive
3. Hive架构介绍
- Hive的服务（角色）

1. hive产生的原因

提供统一的元数据管理方式
使用SQL语言进行数据分析

2. hive是什么

Hive经常被用作企业级数据仓库。
Hive在使用过程中是使用SQL语句来进行数据分析，由SQL语句到具体的任务执行还需要经过解释器，编译器，优化器，执行器四部分才能完成。
（1）解释器：调用语法解释器和语义分析器将SQL语句转换成对应的可执行的java代码或者业务代码

（2）编译器：将对应的java代码转换成字节码文件或者jar包

（3）优化器：从SQL语句到java代码的解析转化过程中需要调用优化器，进行相关策略的优化，实现最优的查询性能

（4）执行器：当业务代码转换完成之后，需要上传到MapReduce的集群中执行

3. 数据仓库–Hive

1、数据仓库基本概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

2、数据处理分类：OLAP与OLTP

数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

OLTP

OLTP，也叫联机事务处理（Online Transaction Processing），表示事务性非常高的系统，一般都是高可用的在线系统，以小的事务以及小的查询为主，评估其系统的时候，一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中，单个数据库每秒处理的Transaction往往超过几百个，或者是几千个，Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等，如美国eBay的业务数据库，就是很典型的OLTP数据库。

OLAP

OLAP（On-Line Analysis Processing）在线分析处理是一种共享多维信息的快速分析技术；OLAP利用多维数据库技术使用户从不同角度观察数据；OLAP用于支持复杂的分析操作，侧重于对管理人员的决策支持，可以满足分析人员快速、灵活地进行大数据复量的复杂查询的要求，并且以一种直观、易懂的形式呈现查询结果，辅助决策。

3. Hive架构介绍

在这里插入图片描述

Hive的服务（角色）

1、用户访问接口

CLI（Command Line Interface）：用户可以使用Hive自带的命令行接口执行Hive QL、设置参数等功能

JDBC/ODBC：用户可以使用JDBC或者ODBC的方式在代码中操作Hive

Web GUI：浏览器接口，用户可以在浏览器中对Hive进行操作（2.2之后淘汰）

2、Thrift Server:
Thrift服务运行客户端使用Java、C++、Ruby等多种语言，通过编程的方式远程访问Hive
3、Driver
Hive Driver是Hive的核心，其中包含解释器、编译器、优化器、执行器等各个组件，完成从SQL语句到MapReduce任务的解析优化执行过程
4、metastore
Hive的元数据存储服务，一般将数据存储在关系型数据库中，为了实现Hive元数据的持久化操作，Hive的安装包中自带了Derby内存数据库，但是在实际的生产环境中一般使用mysql来存储元数据