Hive抽样查询

最新推荐文章于 2024-08-16 15:29:20 发布

BabyFish13

最新推荐文章于 2024-08-16 15:29:20 发布

阅读量2.4k

点赞数

分类专栏： # Hive Sql 文章标签： Hive抽样查询 sampling HQL

本文链接：https://blog.csdn.net/BabyFish13/article/details/79213585

版权

Hive 同时被 2 个专栏收录

80 篇文章 6 订阅

订阅专栏

Sql

60 篇文章 2 订阅

订阅专栏

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。 抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中可以使用三种方式获得采样数据： random sampling，bucket sampling，block sampling。
1、随机抽样（Random sampling ）
使用RAND()函数和LIMIT关键字来获取样例数据，使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果，但是性能没这么高。
语法：
SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND() LIMIT <N rows to sample>;
示例：随机抽出2行数据
SELECT * FROM employees DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;
示例：分组随机抽出5行数据

select a1.uid,a1.tag_id,a1.sum_time
from (select a1.uid,a1.tag_id,a1.sum_time,row_number()over(partition by a1.tag_id order by rand()) rn
from tab_mic_uid_tag_times a1
where sum_time>=3600) a1
where rn<=5;

2、桶表抽样（Bucket table sampling）
该方式是最佳化采样bucket表。RAND()函数也可以用来采样整行。如果采样列同时使用了CLUSTERED BY，使用TABLESAMPLE语句会更有效率。
语法：
SELECT * FROM <Table_Name> TABLESAMPLE(BUCKET <specified bucket number to sample> OUT OF <total number of buckets> ON [colname|RAND()]) table_alias;
示例：
SELECT * FROM employees TABLESAMPLE(BUCKET 2 OUT OF 4 ON RAND()) table_alias;
SELECT * FROM xxxxxx_uid_online_buck TABLESAMPLE(bucket 1 out of 2 on uid);
3、数据块抽样（Block sampling ）
该方式允许Hive随机抽取N行数据，数据总量的百分比（n百分比）或N字节的数据。
语法：
SELECT * FROM <Table_Name> TABLESAMPLE(N PERCENT|ByteLengthLiteral|N ROWS) s;
例：按数据量百分比抽样
SELECT name FROM employees TABLESAMPLE(10 PERCENT) a;
例：按数据大小采样
SELECT name FROM employees TABLESAMPLE(1M) a;
例：按数据行数采样
SELECT * FROM source TABLESAMPLE(10 ROWS);
-------------------------------------------------
聚合和抽样，特别是聚合函数，在大数据处理过程中是处理数据的主要方法。通过自由的条件限制以及聚合函数组合，基本能完成任意要求的数据处理或分组。
这些抽样，与limit限制查询取数是不同的：limit取出的明细数据不能很好的进行随机分布；而抽样查询是根据一定规则进行的数据随机抽取，具有一定的代表性和可参考性。