Hive知识回顾2

最新推荐文章于 2023-05-09 12:56:25 发布

我爱charming你

最新推荐文章于 2023-05-09 12:56:25 发布

阅读量1k

点赞数 1

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42601270/article/details/130562607

版权

一、分桶表

1.1分桶表的概念

分桶表也叫做桶表，源自建表语法中bucket单词。是一种用于==优化查询==而设计的表类型。该功能可以让数据分解为若干个部分易于管理。

在分桶时，我们要指定==根据哪个字段将数据分为几桶（几个部分）==。默认规则是：Bucket number = hash_function(bucketing_column) mod num_buckets。

id

10

11

12

算法：哈希求余，分桶字段（key）求hash值 => 10 11 12

（每个字段都有一个hash值，数字型就是它本身；字符串会hash算法求出一个数字)

(接着hash求余）

(字段完全相同的，一定在同一个筒中)

10 % 3 = 1 => 编号为1号桶

11 % 3 = 2 => 编号为2的桶

12 % 3 = 0 => 编号为0的桶

1亿条数据 => 10个桶 => 1000万条数据

意义：① 优化手段，比分区更加精细的划分，但是数据平均 ② 适合数据抽样

可以发现桶编号相同的数据会被分到同一个桶当中。hash_function取决于分桶字段bucketing_column的类型：

如果是int类型，hash_function(int) == int;

如果是其他类型，比如bigint,string或者复杂数据类型，hash_function比较棘手，将是从该类型派生的某个数字，比如hashcode值。

1.2 分桶表的创建

1.3分桶表的使用好处

和非分桶表相比，分桶表的使用好处有以下几点：

① 优化手段，比分区更加精细的划分，但是数据平均 ② 适合数据抽样

1、==基于分桶字段查询时，减少全表扫描==

        --基于分桶字段state查询来自于New York州的数据
        --不再需要进行全表扫描过滤
        --根据分桶的规则hash_function(New York) mod 5计算出分桶编号


        --查询指定分桶里面的数据就可以找出结果此时是分桶扫描而不是全表扫描
        select * from t_usa_covid19_bucket where state="New York";

2、==分桶表数据进行抽样==

1亿 => 10个桶 => 1g个桶进行抽样

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

二、总结

Hive分区表与分桶表区别：

1.语法不同，分区字段必须是虚拟的，分桶字段必须是实际存在的。

2.底层表现形式不同，分区是把数据集分文件夹存储，分桶是把数据集分文件存储。

3.分区表往往是能判断出数据分配在哪个区中

分桶表基于哈希求余，很难估算出数据具体分配在哪个桶中

4.分桶表相对于分区，是更加细粒度的划分

应用场景：

分区为了避免全表扫描，加快查询速度，分区裁剪

分桶虽然也有避免全表扫描，加快查询速度，还可以进行抽样查询

相同点：都是优化手段，都是建表可选操作。

在实际工作中，分区表相对来说使用更加多一些！！！

我爱charming你

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive知识回顾2

Hive分区表与分桶表区别：1.语法不同，分区字段必须是虚拟的，分桶字段必须是实际存在的。2.底层表现形式不同，分区是把数据集分文件夹存储，分桶是把数据集分文件存储。3.分区表往往是能判断出数据分配在哪个区中分桶表基于哈希求余，很难估算出数据具体分配在哪个桶中4.分桶表相对于分区，是更加细粒度的划分应用场景：分区为了避免全表扫描，加快查询速度，分区裁剪分桶虽然也有避免全表扫描，加快查询速度，还可以进行抽样查询都是优化手段，都是建表可选操作。在实际工作中，分区表相对来说使用更加多一些！！！
复制链接

扫一扫

我爱charming你

CSDN认证博客专家 CSDN认证企业博客

码龄6年

167: 原创

23万+: 周排名

22万+: 总排名

3万+: 访问

: 等级

1986: 积分

19: 粉丝

24: 获赞

4: 评论

66: 收藏

私信

关注

热门文章

分类专栏

最新评论

yolov5--train.py
self_up: 这是看了谁的课程这么详细
算法与数据结构刷题第一天
CSDN-Ada助手: 恭喜你开始博客创作，这是一个很好的开始！看到你开始刷算法和数据结构题目，这是很好的选择。建议你在未来的博客中可以分享一些自己的学习心得和体会，不仅可以帮助到其他学习者，也可以加深自己的理解和记忆。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
4月20号大数据面试准备
CSDN-Ada助手: 非常感谢您分享这篇博客，对于准备大数据面试的读者来说，这些内容非常有用！您对于ZooKeeper的介绍也非常清晰易懂，这对于初学者来说很友好。除了您提到的内容，还有一些扩展知识和技能，比如Hadoop分布式计算框架、Spark内存计算框架、Hive数据仓库工具等等，这些都是大数据领域必备的技能。希望您继续分享更多有用的内容，我们期待着您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
python、pytorch、 torchvision、cuda、cudnn、jupyter notebook，在cpu和gpu环境中的安装
CSDN-Ada助手: 恭喜您写出了如此详细且实用的博客！您对于Python、PyTorch、TorchVision、CUDA、CuDNN、Jupyter Notebook在CPU和GPU环境下的安装的解释非常清晰，对初学者来说非常友好。接下来，我希望您能够继续分享更多关于人工智能和数据科学方面的知识，让更多的人受益于您的经验和见解。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
面试总结+力扣第二天刷题
CSDN-Ada助手: 恭喜您写下了第三篇博客，对于您在面试总结和刷题方面的不懈努力表示赞赏。下一步，建议您可以多留意读者的反馈和需求，针对性地撰写更加深入有用的内容。期待您的下一篇佳作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。