Hive原理分析

本文详细介绍了Hive作为基于Hadoop的数据仓库工具,其原理包括数据存储在HDFS,计算使用MapReduce,以及元数据管理和SQL查询支持。Hive适用于日志分析和海量结构化数据离线分析,优点在于易上手、可扩展和统一元数据管理,缺点是HQL表达能力有限和效率较低。文章还深入讨论了Hive的工作流程、数据模型、类型转化,以及与数据库的异同,并给出了Hive的架构和元数据存储方案。
摘要由CSDN通过智能技术生成

Hive背景介绍

   Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富最全的SQL语法,也拥有最慢最稳定的执行。是目前Hadoop上几乎标准的ETL和数据仓库工具。
    Hive这个特点与其它AdHoc查询工具如Impala,Spark SQL或者Presto有着应用场景的区别,也就是虽然都是即席查询工具,前者适用与稳定作业执行,调度以及ETL,或者更倾向于交户式。一个典型的场景是分析师使用Impala去探测数据,验证想法,并把数据产品部署在Hive上执行。

简单的说:hive是基于hadoop的数据仓库。

那么为什么说hive是基于Hadoop的呢?

之所以说hive是构建在Hadoop之上的数据仓库,简单的说是因为:

   ①数据存储在hdfs上

   ②数据计算用mapreduce

下面我们来深入分析一下:

    Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;它可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 Hive SQL(HQL),使不熟悉 MapReduce 的用户也能很方便地利用 SQL 语言对数据进行查询、汇总、分析。同时,这个语言也允许熟悉 MapReduce 开发者们开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF,用来在查询中使用。Hive中有3种UDF:User Defined Functions(UDF)、User Defined Aggregation Functions(UDAF)、User Defined Table Generating Functions(UDTF)。也就是说对存储在HDFS中的数据进行分析和管理,我们不想使用手工,我们建立一个工具吧,那么这个工具就可以是hive。

Hive常见的应用场景

(1)日志分析:大部分互联网公司使用hive进行日志分析,包括百度、淘宝等。

   1)统计网站一个时间段内的pv、uv

   2)多维度数据分析

(2)海量结构化数据离线分析

Hive的特点(优缺点)

(一)hive的优点

(1)简单容易上手:提供了类SQL查询语言HQL

(2)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统)

一般情况下不需要重启服务Hive可以自由的扩展集群的规模。

(3)提供统一的元数据管理

(4)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数

(5)容错:良好的容错性,节点出现问题SQL仍可完成执行

(二)hive的缺点(局限性)

(1)hive的HQL表达能力有限

  1)迭代式算法无法表达,比如pagerank

  2)数据挖掘方面,比如kmeans

(2)hive的效率比较低

  1)hive自动生成的mapreduce作业,通常情况下不够智能化

  2)hive调优比较困难,粒度较粗

3)hive可控性差

Hive 工作原理

        Hive 工作原理如下图所示

https://i-blog.csdnimg.cn/blog_migrate/d76de55828b7d6088b72d7151117f616.png

从架构图上可以很清楚地看出Hive和Hadoop(MapReduce,HDFS)的关系。

Hive是最上层,即客户端层或者作业提交层。 
MapReduce/Yarn是中间层,也就是计算层。 
HDFS是底层,也就是存储层。

从Facebook的图上可以看出,Hive主要有QL,MetaStore和Serde三大核心组件构成。QL就是编译器,也是Hive中最核心的部分。Serde就是Serializer和Deserializer的缩写,用于序列化和反序列化数据,即读写数据。MetaStore对外暴露Thrift API,用于元数据的修改。比如表的增删改查,分区的增删改查,表的属性的修改,分区的属性的修改等。等下我会简单介绍一下核心,QL。

Hive的数据模型

Hive的数据存储在HDFS上,基本存储单位是表或者分区,Hive内部把表或者分区称作SD,即Storage Descriptor。一个SD通常是一个HDFS路径,或者其它文件系统路径。SD的元数据信息存储在Hive MetaStore中,如文件路径,文件格式,列,数据类型,分隔符。Hive默认的分格符有三种,分别是^A、^B和^C,即ASCii码的1、2和3,分别用于分隔列,分隔列中的数组元素,和元素Key-Value对中的Key和Value。
Hive的核心是Driver,Driver的核心是SemanticAnalyzer。 Hive实际上是一个SQL到Hadoop作业的编译器。 Hadoop上最流行的作业就是MapReduce,当然还有其它,比如Tez和Spark。Hive目前支持MapReduce, Tez, Spark三种作业,其原理和刚才回顾的MapReduce过程类似,只是在执行优化上有区别。

 

Hive编译器的组成:

(1)HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的

(2)所有的数据都是存储在Hadoop中

(3)查询计划被转化为MapReduce任务,在Hadoop中执行(有些查询没有MR任务,如:select * from table)

(4)Hadoop和Hive都是用UTF-8编码的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值