Hive抽样查询

60 篇文章 2 订阅
当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。 抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中可以使用三种方式获得采样数据: random sampling,bucket sampling,block sampling。
1、随机抽样(Random sampling )
使用RAND()函数和LIMIT关键字来获取样例数据,使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果,但是性能没这么高。
语法:
SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND() LIMIT <N rows to sample>;
示例:随机抽出2行数据
SELECT * FROM employees  DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;
示例:分组随机抽出5行数据
select a1.uid,a1.tag_id,a1.sum_time
from (select a1.uid,a1.tag_id,a1.sum_time,row_number()over(partition by a1.tag_id order by rand()) rn
from tab_mic_uid_tag_times a1
where sum_time>=3600) a1
where rn<=5;
2、桶表抽样(Bucket table sampling)
该方式是最佳化采样bucket表。RAND()函数也可以用来采样整行。如果采样列同时使用了CLUSTERED BY,使用TABLESAMPLE语句会更有效率。
语法:
SELECT * FROM <Table_Name> TABLESAMPLE(BUCKET <specified bucket number to sample> OUT OF <total number of buckets> ON [colname|RAND()]) table_alias;
示例:
SELECT * FROM employees TABLESAMPLE(BUCKET 2 OUT OF 4 ON RAND()) table_alias;
SELECT * FROM xxxxxx_uid_online_buck TABLESAMPLE(bucket 1 out of 2 on uid); 
3、数据块抽样(Block sampling )
该方式允许Hive随机抽取N行数据,数据总量的百分比(n百分比)或N字节的数据。
语法:
SELECT * FROM <Table_Name> TABLESAMPLE(N PERCENT|ByteLengthLiteral|N ROWS) s;
例:按数据量百分比抽样 
SELECT name FROM employees TABLESAMPLE(10 PERCENT) a;
例:按数据大小采样
SELECT name FROM employees TABLESAMPLE(1M) a;
例:按数据行数采样
SELECT * FROM source TABLESAMPLE(10 ROWS);
-------------------------------------------------
聚合和抽样,特别是聚合函数,在大数据处理过程中是处理数据的主要方法。通过自由的条件限制以及聚合函数组合,基本能完成任意要求的数据处理或分组。
这些抽样,与limit限制查询取数是不同的:limit取出的明细数据不能很好的进行随机分布;而抽样查询是根据一定规则进行的数据随机抽取,具有一定的代表性和可参考性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值