数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢?
当然,浪尖写本文还有另一个目的就是复习hive的四by。不止是否有印象呢?
Hive : SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY
欢迎点击阅读原文,加入浪尖知识星球。
假设有一张包含100亿行的Hive表,希望有效地随机抽样一个固定行数的数据 - 比如10000。最明显(而且显然是错误的)的方法是:
select * from my_table