[Hive]Hive实现抽样查询

最新推荐文章于 2024-08-16 15:29:20 发布

TOMOCAT

最新推荐文章于 2024-08-16 15:29:20 发布

阅读量2.9w

点赞数 1

分类专栏： Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TOMOCAT/article/details/81706810

版权

Hive 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

对于非常大的数据集，有时用户需要使用的知识一个具有代表性的查询结果，而不是全部结果。Hive可以通过对表进行分桶抽样来满足这个需求。

1、分桶抽样查询

select * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON number) s;

其中tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y) 。y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

2、数据块抽样

Hive提供了另外一种按照抽样百分比进行抽样的方式，这种是基于行数的，按照输入路径下的数据块百分比进行抽样。

select * from numbersflat TABLESAMPLE(0.1 PERCENT) s；

这种抽样方式不一定适用于所有的文件格式。另外抽样的最小抽样单元是一个HDFS数据块。如果标的数据大小小于普通的块大小128MB，那么会返回所有的行。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。