简单认识Hive

Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲,Hive是必须掌握的核心技术。

什么是Hive?

Hive的定义

Hive是一个开源的数据仓库工具,用于在Hadoop平台上进行数据查询和分析。它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。

Hive架构

Hive架构图
Hive Metastore:Hive的元数据存储组件,用于存储Hive表的元数据信息,包括表的结构、分区信息、表的位置等。
HiveServer2:Hive的服务端组件,提供了一个Thrift接口,允许客户端通过Thrift协议来执行HiveQL查询。
元数据存储:通常是存储在关系数据库如 mysql/derby 中。
Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

<<hadoop-hive两者的元数据>>

Hadoop元数据管理:

Hadoop是一个分布式存储和计算框架,其元数据管理主要通过HDFS(Hadoop分布式文件系统)来实现。HDFS存储文件的元数据信息,包括文件的大小、权限、创建时间等。Hadoop还提供了一个元数据服务叫做Hadoop NameNode,它负责管理文件系统的命名空间和数据块的映射关系。

Hive元数据管理:

Hive是建立在Hadoop之上的数据仓库工具,它提供了类似于SQL的查询语言来对大数据进行查询和分析。Hive的元数据管理主要通过Hive Metastore来实现。Hive Metastore是一个关系型数据库,用于存储表的元数据信息,包括表的结构、数据类型、分区等信息。通过Hive Metastore,用户可以方便地管理和查询Hive表的元数据信息。

两者异同

Hadoop的元数据主要存储在HDFS中,而Hive的元数据主要存储在Hive Metastore中。Hadoop的元数据一般通过Hadoop API来查询,而Hive的元数据一般通过HiveQL语言来查询。

为什么要用Hive?

它提供了一种类似于SQL的查询语言,可以方便地进行数据分析和查询。

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。使用Hive可以提高数据处理的效率,降低数据分析的成本,同时也可以帮助用户更好地理解和利用数据。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值