Hive之分桶

最新推荐文章于 2024-02-25 14:16:39 发布

INC随我

最新推荐文章于 2024-02-25 14:16:39 发布

阅读量269

点赞数 1

分类专栏：大数据文章标签： hive 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38542085/article/details/128601094

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、分桶及抽样数据存储

分区针对的是数据的存储路径；分桶针对的是数据文件。

分区提供一个隔离数据和优化查询到的便利方式。不过并非所有的数据集都可形成合理的分区，特别是之前所提到的要确定合适的划分大小这个疑虑。
分桶试讲数据及分解成更容易管理的若干部分的另一个技术。

二、创建分桶表

2.1 首先设置相关属性

set hive.ecforce.bucketing=true;
set mapreduce.job.reduces=-1;

2.2 创建一个分桶表

create table stu_bucket(id int, name string)
clustered by (id) into 4 buckets
row format delimited field terminated by '\n';

2.3 将stu表的数据导入分桶表中

insert into table stu_buck
select id, name from stu;

三、分桶抽样调查

对于非常大的数据集，又是用户需要使用过的是一个具有代表性的查询结果而不是全部结果。Hive可以通过对表的抽样来满足这个需求
查询表stu_buck中的数据

select * from stu_buck tablesample(bucket 1 out of 4 on id);

tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。Hive根据y的大小，决定取样的比例。例如table总共有4份，如果y=2是，则抽取2个bucket数据，如果y=8，则抽取1/2个bucket的数据。
x表示从哪个bucket开始抽取，如果需要取多个分区，以后的分区号为当前分区号加上y。例如tablesample(bucket 1 out of 2)，表示总共抽取(4/2=)2个bucket的数据，抽取第1(x)个和第3(x+y)个bucket的数据。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive之分桶

对于每一个Hive表（包括分区表），Hive可以进一步对数据进行分桶，桶是更细粒度的数据范围划分。
复制链接

扫一扫

专栏目录

INC随我 CSDN认证博客专家 CSDN认证企业博客

码龄7年

107: 原创

5万+: 周排名

162万+: 总排名

29万+: 访问

: 等级

3584: 积分

52: 粉丝

117: 获赞

34: 评论

571: 收藏

私信

关注

热门文章

分类专栏

大数据 17篇
Java 42篇
Python 26篇
数据结构与算法 12篇
SpringBoot 18篇
Django 3篇
Python数据处理 2篇
Flask 6篇
Tensorflow 11篇
Selenium 3篇
Mysql 3篇
Hexo 1篇
LeetCode 2篇
MyBatis 1篇
计算机网络 3篇
数据库 8篇
面试 5篇
消息队列 7篇

最新评论

Flume自定义Source
CSDN-Ada助手: 亲爱的博主，我真心想告诉你，你所写的“Flume自定义Source”这篇博客真是非常棒！不仅内容深入浅出，而且触及到了一个非常有趣且实用的主题。当然，我也明白这篇博客的创作一定不容易，因为要对Flume进行自定义编写，需要充分的知识和实践经验。基于你在“Flume自定义Source”这篇博客所展示的专业水准和深度，我相信你一定还有更多的创意和知识可以分享给读者。所以，我想向你提出一个可能的下一篇博客的主题，那就是“Flume自定义Sink探索”。在这篇博客中，你可以分享如何自定义Flume中的Sink组件，这不仅能帮助读者更好地理解Flume的整体架构，还能让他们掌握如何与Flume进行更深入的交互和扩展。我期待着你继续给我们带来更多的精彩内容！谢谢你的辛勤付出和无私分享。诚挚的读者
selenium中如何定位伪元素
weixin_45922111: 很明显不行，定位不到
selenium下载文件
DickMsk: 楼主能不能加个edge的演示
面向对象的特征：继承封装和多态
一条游向寒江的鱼: 评论支持
selenium中如何定位伪元素
weixin_46139406: 请问父类只有style怎么办？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。