hive 简介

塞上江南o

已于 2023-03-06 16:03:09 修改

阅读量1.3k

点赞数 2

分类专栏： Hive 文章标签： hive

于 2019-11-30 15:32:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43192537/article/details/103325132

版权

Hive 专栏收录该内容

46 篇文章 4 订阅

订阅专栏

导航

hive outline

hive 简介

hive是基于 Hadoop 的一个数据仓库工具，它主要有2个功能：

可以将结构化的数据文件映射为一张数据库表
可以将 HQL 语句转换为 MapReduce 程序

在这里插入图片描述

hive 架构

在这里插入图片描述

hive 是由驱动器组成，驱动器主要由4个组件组成（解析器、编译器、优化器、执行器）
hive本身不存储数据，数据是存储在hdfs上
hive的元数据默认是存储在detby数据库中，但是它支持一个客户端进行连接，为了支持多客户端连接，可将元数据存储在关系型数据库中（如mysql）
hive本身不参与数据计算，数据计算交由计算引擎，hive支持的计算引擎由3种（MapReduce默认、Tez、Spark ）

hive 数据模型

在这里插入图片描述

库

Hive的数据都是存储在HDFS上的，默认有一个根目录。由文件 hive-site.xml 中的参数hive.metastore.warehouse.dir指定。默认值为 /user/hive/warehouse

比如名为itcast的数据库存储路径为：/user/hive/warehouse/itcast.db

表

表所对应的数据是存储在HDFS上的，而表相关的元数据是存储在关系型数据库中
hive有两种类型的表：内部表（默认表）和外部表

分区

分区是hive的一种优化手段。分区是指根据表的字段（例如“日期day”）将表划分为不同分区
一个分区表示一个文件夹

分桶

分桶是hive的一种优化手段。分桶是指根据表中字段的值（例如“编号ID”）,经过hash取余规则将数据文件划分成指定的若干个小文件

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
hive 简介

hive 简介
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。