hive学习笔记之五：分桶，别再说你不会

最新推荐文章于 2024-07-22 14:10:07 发布

m0_60666841

最新推荐文章于 2024-07-22 14:10:07 发布

阅读量715

点赞数 19

分类专栏： 2024年程序员学习文章标签： hive 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60666841/article/details/137123198

版权

2024年程序员学习专栏收录该内容

282 篇文章 0 订阅

订阅专栏

这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos

《hive学习笔记》系列导航

本篇概览

本文是《hive学习笔记》的第五篇，前文学习了分区表，很容易发现分区表的问题：

分区字段的每个值都会创建一个文件夹，值越多文件夹越多；
不合理的分区会导致有的文件夹下数据过多，有的过少；

此时可以考虑分桶的方式来分解数据集，分桶原理可以参考MR中的HashPartitioner，将指定字段的值做hash后，根据桶的数量确定该记录放在哪个桶中，另外，在join查询和数据取样时，分桶都能提升查询效率；

接下来开始实战；

配置

执行以下设置，使得hive根据桶的数量自动调整上一轮reducers数量：

set hive.enforce.bucketing = true;

如果不执行上述设置，您需要自行设置mapred.reduce.tasks参数，以控制reducers数量，本文咱们配置为hive自动调整；

准备数据

接下来先准备外部表t13，往里面添加一些数据，将t13作为后面分桶表的数据源：

表名t13，只有四个字段：

create external table t13 (name string, age int, province string, city string)

row format delimited

fields terminated by ‘,’

location ‘/data/external_t13’;

创建名为013.txt的文件，内容如下：

tom,11,guangdong,guangzhou

jerry,12,guangdong,shenzhen

tony,13,shanxi,xian

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024b （备注Java）

最后

学习视频：

大厂面试真题：

mg-jADaYpT5-1711628321194)]

最后

学习视频：

[外链图片转存中…(img-LiDvvmLs-1711628321194)]

大厂面试真题：

[外链图片转存中…(img-66klBq91-1711628321194)]

关注

19
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
hive学习笔记之五：分桶，别再说你不会

学习视频：大厂面试真题：学习视频：[外链图片转存中…(img-LiDvvmLs-1711628321194)]大厂面试真题：[外链图片转存中…(img-66klBq91-1711628321194)]
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

611: 原创

-: 周排名

-: 总排名

41万+: 访问

: 等级

1万+: 积分

6076: 粉丝

8926: 获赞

15: 评论

9089: 收藏

私信

关注

热门文章

分类专栏

最新评论

【专题】python自定义封装logging_python loggeer自定义(1)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
【看了绝对不后悔系列，软件实施以及运维】Windows下运维常用的小技巧(1)
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python每日一练——列表，元组和字典第十三关：字典键值支持的数据类型
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
Spark SQL简介及视频教程(2)
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
完全编程0基础，转行学Python，可以学会吗？_真的有人可以一个月学会编程吗(1)
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。