HIVE

最新推荐文章于 2023-12-10 09:04:07 发布

caiyefly

最新推荐文章于 2023-12-10 09:04:07 发布

阅读量238

点赞数

分类专栏： Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caiyefly/article/details/78044526

版权

Hive 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.11 什么是HIVE

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能

1.12为什么使用HIVE

01 直接使用hadoop所面临的问题

人员学习成本太高

项目周期要求太短

MapReduce实现复杂查询逻辑开发难度太大

02 为什么要使用Hive

操作接口采用类SQL语法，提供快速开发的能力。

避免了去写MapReduce，减少开发人员的学习成本。

功能扩展很方便。

1.13HIVE的特点

Ø 可扩展

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。

Ø 延展性

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

Ø 容错

良好的容错性，节点出现问题SQL仍可完成执行。

1.21HIVE与Hadoop的关系

Hive利用HDFS存储数据，利用MapReduce查询分析数据。用户发出SQL，HIVE处理，转换成MR程序。

1.22

1、 Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）

SequenceFile是hadoop中的一种文件格式：

文件内容是以序列化的kv对象来组织的

2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。

3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。

² db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹

² table：在hdfs中表现所属db目录下一个文件夹

² external table：与table类似，不过其数据存放位置可以在任意指定路径

² partition：在hdfs中表现为table目录下的子目录

bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。