大数据方向学习系列——Hive——第一章:Hive入门

本文介绍了Hive作为数据仓库工具的基本概念、安装步骤,重点分析了其优缺点,如类SQL语法降低学习成本、处理大数据的能力以及执行延迟高等问题。此外,对比了Hive与传统数据库在查询语言、数据存储、更新、索引和执行延迟等方面的差异,揭示了Hive在大数据分析场景中的适用性。
摘要由CSDN通过智能技术生成

系列文章目录

第一章 Hive入门
第二章 Hive安装



碎碎念

从3月15号到4月2号,两个多星期都没写博客了,一直在学习新的知识,emmm,主要还是看了看尚学堂出品的Java300集。这个课程质量非常高,对于新手小白来说非常友好,我看完后收获很大。
唉,踏上程序员这条路是真的苦逼,天天坐在电脑前学习,前面的知识那么多学了忘忘了学…这段时间给自己买了一个记忆棉枕头,原本是想着枕头的 但感觉并不舒服,于是就拿来枕屁股了,hahahhhhh,男人就是要对自己好一些
校园疫情封校,这段时间每天运动一个小时,感觉身体越来越棒了(实际上是,跑了5公里第二天小腿酸得不行), 减肥减肥,解封后带喜欢的妹子去吃饭,生活又阳光了起来!
好吧,碎碎念了这么多,抽回正题,加油学习,拉开差距!
提示:以下是本篇文章正文内容

1.1 Hive是什么?

    Hive:是由Meta(之前叫Facebook,2022年股价跌了34%,另外说一句3月15号,中概股暴雷,抄底到现在也有50%的利润了)开源用于解决海量结构化日志的数据统计。
    Hive是基于Hadoop的一个数据仓库工具,可以把结构化的数据文件映射为一张表,并且提供类似SQL的查询功能。
    本质是:将HQL转化为MapReduce程序
在这里插入图片描述
1)Hive处理的数据储存在HDFS中
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在Yarn上

1.2 Hive的优缺点

1.2.1 优点

  1. 操作接口采用类SQL语法,提供快速开发的能力(简单、容量上手)。
  2. 避免了去写MapReduce,减少开发人员的学习成本
  3. Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
  4. Hive优势在于处理大数据
  5. Hive支持用户自定义函数

1.2.2 缺点

1.Hive的HQL表达能力有限
(1) 迭代算法无法表达
(2)数据挖掘方面不擅长

2.Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常不够智能化
(2)Hive调优比较困难,粒度较粗

1.3 Hive架构原理

在这里插入图片描述

1.用户接口:Client
CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)
2.元数据:Metastore
元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;
默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore
3.Hadoop
使用HDFS进行存储,使用MapReduce进行计算。
4.驱动器:Driver
(1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr;对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误。
(2)编译器(Physical Plan):将AST编译生成逻辑执行计划。
(3)优化器(Query Optimizer):对逻辑执行计划进行优化。
(4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划。对于Hive来说,就是MR/Spark。
在这里插入图片描述
Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。

1.4 Hive和数据库比较

Hive采用了类似SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。

1.4.1 查询语言

由于SQL被广泛的应用于数据仓库中,因此,专门针对HIve的特性设计了类SQL的查询语言HQL。

1.4.2 数据存储位置

Hive是建立在Hadoop上的,所有的Hive数据都是储存在HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

1.4.3 数据更新

由于Hive是针对数据仓库应用设计的,而数据仓库的内容是读多写少。因此,Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用Insert into … values 添加数据,使用update … set 修改数据。

1.4.4 索引

Hive在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hive 仍然可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟。由于数据的访问延迟较高,决定了 Hive 不适合在线数据查询。

1.4.5

执行Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。

1.4.6 执行延迟

Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce框架。由于MapReduce 本身具有较高的延迟,因此在利用MapReduce 执行Hive查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。当然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。

1.4.7 可扩展性

由于Hive是建立在Hadoop之上的,因此Hive的可扩展性是和Hadoop的可扩展性是一致的(世界上最大的Hadoop 集群在 Yahoo!,2009年的规模在4000 台节点左右)。而数据库由于 ACID 语义的严格限制,扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有100台左右。

1.4.8 数据规模

由于Hive建立在集群上并可以利用MapReduce进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较小。


总结

以上就是今天要讲的内容,本文主要介绍了Hive是什么,Hive的优缺点,以及Hive和数据库的区别处理数据规模、速度的比较。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿不熬夜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值