近些年大数据发展迅速,大数据生态圈也越来越丰富。使用sql进行数据分析时有个常用的组件叫 HIVE ,而阿里云则提供了类似HIVE功能的商业云服务,称为 maxcompute 。
今天记录一下使用maxcompute sql从数据中随机抽取n条样本的方法。
假设有数据如下:
id | name |
---|---|
1 | 张三 |
2 | 李四 |
3 | 王五 |
4 | 龙傲天 |
5 | 刘斩仙 |
6 | 赵日天 |
我们想随机从上表中抽取3条数据,应该怎么写?
假设表名为tmp_table
:
select id,name from tmp_table
order by rand(