大数据Hadoop之-工具HIVE(一)

最新推荐文章于 2024-06-13 09:52:40 发布

梦想一直在路上

最新推荐文章于 2024-06-13 09:52:40 发布

阅读量767

点赞数 20

文章标签：大数据 hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wb_zjp283121/article/details/139093377

版权

大数据Hadoop之——数据仓库Hive

HIVE介绍

Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。

在Hadoop生态系统中，HDFS用于存储数据，Yarn用于资源管理，MapReduce用于数据处理，而Hive是构建在Hadoop之上的数据仓库，包括以下方面：

使用HQL作为查询接口；
使用HDFS存储；
使用MapReduce或其它计算框架计算；
执行程序运行在Yarn上
本质上是: 将HIVE SQL 转化成MapReduce程序,适合离线数据的处理

二、Hive工作原理

三、HIVE基本数据类型

HIVE分区表和分桶表

在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区和桶是优化Hive性能的两种方式，它们的区别如下：

分区表

Hive支持根据用户指定的字段进行分区，分区的字段可以是日期、地域、种类等具有标识意义的字段。

Hive分区的主要作用是:

提高查询效率: 使用分区对数据进行访问时，系统只需要读取和此次查询相关的分区，避免了全表扫描，从而显著提高查询效率。

降低存储成本: 分区可以更加方便的删除过期数据，减少不必要的存储。

(1)静态分区

CREATE TABLE table_name (column1 data_type, column2 data_type)

PARTITIONED BY (partition1 data_type, partition2 data_type,….);

静态分区是指通过手动指定分区列的值来创建分区

CREATE TABLE sales (

id int,

date string,

amount double

最低0.47元/天解锁文章

梦想一直在路上

关注

20
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
大数据Hadoop之-工具HIVE(一)

日常工作中数据倾斜主要发生在Reduce阶段，而很少发生在 Map阶段，其原因是Map端的数据倾斜一般是由于HDFS数据存储不均匀造成的（公司的日志存储几乎都是均匀分块存储，每个文件大小基本固定），而Reduce阶段的数据倾斜几乎都是因为分析师没有考虑到某种key值数据量偏多的情况而导致的。分桶表会将指定列的值进行哈希散列，并对 bucket（桶数量）取余，然后存储到对应的 bucket（桶）中(Hive 中的分桶概念和 Java 数据结构中的 HashMap 的分桶概念是一致的。
复制链接

扫一扫

梦想一直在路上 CSDN认证博客专家 CSDN认证企业博客

码龄7年

414: 原创

1万+: 周排名

3248: 总排名

61万+: 访问

: 等级

9286: 积分

289: 粉丝

399: 获赞

75: 评论

795: 收藏

私信

关注

热门文章

分类专栏

最新评论

大数据之Schedule调度错误(一)
chatGPT_gaga: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
mysql-读写分离，导致数据不一致问题
嗨森bao: 图片丢失了
Java之List集合两种排序的性能比较(抛开数据量谈性能都是耍流氓)
是奉壹啊: 你这个样本应该要用两个list吧，或者第2次排序之前要打乱
责任链设计模式
CSDN-Ada助手: 感谢您的分享，责任链设计模式是一种非常实用的设计模式，对于软件开发中的“解耦”非常有帮助。我们鼓励您继续分享您的技术，为CSDN社区贡献更多有价值的内容。作为下一步的建议，我们希望您可以撰写一篇关于“单例模式”的技术博文，分享您的实战经验和心得。期待您的精彩文章！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
多线程-批量获取多条线程的执行结果
wwj-肩并肩的默契: 三个程序都有问题，最后一个拿不到结果

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。