Hive介绍与核心知识点

最新推荐文章于 2022-04-11 07:12:13 发布

高广超

最新推荐文章于 2022-04-11 07:12:13 发布

阅读量354

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beyond59241/article/details/84848181

版权

Hive是由Facebook开发的大数据仓库软件，使用SQL进行大数据分析，避免了编写MapReduce程序的复杂性。Hive的数据存储在HDFS上，元数据通常存储在MySQL，支持内部表和外部表，以及分区和桶的概念。Hive的执行过程涉及将Hive语句转化为MapReduce任务在YARN上执行。Hive支持多种文件格式，如TEXTFILE、SEQUENCEFILE、RCFILE和ORC File，其中ORC File提供了更好的性能和压缩。Hive的ROW FORMAT允许使用自定义或内置Serde进行数据序列化和反序列化。

摘要由CSDN通过智能技术生成

Hive

Hive简介

Facebook为了解决海量日志数据的分析而开发了Hive，后来开源给了Apache软件基金会。

官网定义：

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.

Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。

Hive的几个特点

Hive最大的特点是通过类SQL来分析大数据，而避免了写MapReduce程序来分析数据，这样使得分析数据更容易。
数据是存储在HDFS上的，Hive本身并不提供数据的存储功能
Hive是将数据映射成数据库和一张张的表，库和表的元数据信息一般存在关系型数据库上（比如MySQL）。
数据存储方面：它能够存储很大的数据集，并且对数据完整性、格式要求并不严格。
数据处理方面：因为Hive语句最终会生成MapReduce任务去计算，所以不适用于实时计算的场景，它适用于离线分析。

Hive架构

image.png

Hive的底层存储

Hive的数据是存储在HDFS上的。Hive中的库和表可以看作是对HDFS上数据做的一个映射。所以Hive必须是运行在一个Hadoop集群上的。

Hive语句的执行过程

Hive中的执行器，是将最终要执行的MapReduce程序放到YARN上以一系列Job的方式去执行。

Hive的元数据存储

Hive的元数据是一般是存储在MySQL这种关系型数据库上的，Hive和MySQL之间通过MetaStore服务交互。

Hive重要概念

外部表和内部表

内部表（managed table）

默认创建的是内部表（managed table），存储位置在hive.metastore.warehouse.dir设置，默认位置是/user/hive/warehouse。
导入数据的时候是将文件剪切（移动）到指定位置，即原有路径

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

高广超 CSDN认证博客专家 CSDN认证企业博客

码龄14年

140: 原创

17万+: 周排名

64万+: 总排名

21万+: 访问

: 等级

2127: 积分

82: 粉丝

48: 获赞

165: 评论

276: 收藏

私信

关注

热门文章

分类专栏

设计模式 5篇
算法 2篇
多线程 5篇
大数据 1篇
Java 7篇
DB 2篇
架构 12篇
MQ 3篇
apm 1篇
coding 3篇
高可用 2篇
Cache 3篇
JVM 4篇
框架 2篇
中间件 6篇
软素质 6篇
编程基础 1篇
设计 1篇
Docker 1篇

最新评论

Redis 单key值过大优化方式
weixin_39689543 回复码农麒麟: 感谢
Redis 单key值过大优化方式
码农麒麟: 既然能做%运算，肯定是一个整形数字，而这个算法完全是可以自己定义的，你可以搜一下谷歌开源的那个一致性Hash算法
Redis 单key值过大优化方式
weixin_39689543 回复码农麒麟: 不好意思，可能是我没有说清楚，我的问题是哈希之后要做取模，那么*hash*(field)之后是一个字符串吗？还是一个整形？如果是整形，通过什么hash方法获取到一个整形呢？
Redis 单key值过大优化方式
码农麒麟回复 weixin_39689543: 这个newHashKey就直接用来当做新set的key了
Redis 单key值过大优化方式
weixin_39689543: newHashKey = hashKey + (*hash*(field) % 10000）;麻烦问一下，hash之后一般都是一个字符串，是使用hash之后的字符串进行取模吗？

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。