Hive 分桶表核心知识点

最新推荐文章于 2022-08-14 16:09:50 发布

Wu_Candy

最新推荐文章于 2022-08-14 16:09:50 发布

阅读量2.4k

点赞数 1

分类专栏：大数据测试文章标签： hive big data hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41754309/article/details/121836871

版权

本文详细介绍了Hive分桶表的核心概念，包括数据分桶的定义、意义及实现步骤。通过分桶，可以提高大规模数据集的开发效率，解决大文件问题，并优化JOIN操作。此外，还探讨了分桶表与分区表的异同点，强调了分桶在数据管理和查询性能上的优势。

摘要由CSDN通过智能技术生成

1. Hive 分桶表操作

1.1 数据分桶的定义

分桶是相对分区进行更细粒度的划分。

分桶将整个 hive 表数据内容按照某列属性值的 hash 值进行分区，通过分区将这些表数据划分到多个文件中进行存储。

其实桶的概念就是 MapReduce 分区的概念。物理上每个桶就是目录里的一个文件，一个任务作业产生的桶（即：输出文件）数量和设置的 reduce 任务个数相等。

假设有 hive 表：test_student，按照其字段 s_id 属性分为 3 个桶，那么就是对 s_id 属性值的 hash 值对 3 取模，按照取模结果对数据分桶。如取模结果为 0 的数据记录存放到一个文件，取模为 1 的数据存放到一个文件，取模为 2 的数据存放到一个文件。

1.2 数据分桶的意义

在处理大规模数据集时，在开发和修改查询阶段，可以使用整个数据集的一部分进行抽样测试查询、修改，提高开发效率；
解决单个表文件数据量过大的问题；
分桶表数据进行抽样和 JOIN 时可以提高 MapReduce 程序效率；

1.3 实现分桶的步骤

1.3.1 分桶表功能开启

打开 hive 客户端，在 hive 命令行执行以下命令来开启分桶表功能

#开启分桶表的功能
set hive.enforce.bucketing=true;

1.3.2 设置 Reduce 个数

#设置reduce的个数为3
set mapreduce.job.reduces=3;

1.3.3 创建分桶表

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Wu_Candy CSDN认证博客专家 CSDN认证企业博客

码龄7年

303: 原创

3万+: 周排名

136万+: 总排名

43万+: 访问

: 等级

4927: 积分

249: 粉丝

202: 获赞

318: 评论

1601: 收藏

私信

关注

热门文章

分类专栏

最新评论

一文搞懂 Python 私有属性 & 私有方法
sesenb: 我靠，刚才看到用一个下划线定义私有的，给我看的怀疑人生了，赶紧过来看看，才发现我没记错，那哥们真TM是个人才，一个下划线定义私有他还觉得没毛病，写了一整篇代码，全都是这样定义，简直惨不忍睹
实战|轻松用 Python 开发一个简单有趣的聊天小程序
不和你玩儿了: 可以分享一下网络调试助手的安装包嘛
一文搞懂 Python 私有属性 & 私有方法
桂花树开，空气也变得香甜: 突然意识到一个问题，虽然可以通过普通方法间接访问私有变量和方法，但是具体实现细节不清楚。如果私有变量和方法可以随意访问，那python程序的安全性怎么保证啊？
一文搞懂 Python 私有属性 & 私有方法
桂花树开，空气也变得香甜: 看懂了，博主还是有思路的
一文搞懂 Python 私有属性 & 私有方法
桂花树开，空气也变得香甜: “(3). 从下图可以看出，在对象内部私有方法与私有属性是可以被调用的。”应该是在类内部私有方法和私有变量可以被调用吧。就算是该类创建的实例对象也不能调用该类的私有变量和方法。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Wu_Candy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。