大家好,我是明哥!
本片文章,我们来总结下,HIVE 中的 order/sort/cluster/distribute by 和 BUCKET 桶表
1 ORDER BY
ORDER BY 会对 SQL 的最终输出结果数据做全局排序;
ORDER BY 底层只会有一个Reducer 任务 (多个Reducer无法保证全局有序);
当然只有一个 Reducer 任务时,如果输入数据规模较大,会消耗较长的计算时间;
ORDER BY 默认的排序顺序是递增 ascending (ASC).
示例语句:select distinct cust_id,id_no,part_date from ads_api_cda_basic_info_parquet_pt order by cust_id;
2 SORT BY
SORT BY 不是对 SQL 的最终输出结果数据做排序,而是对 MAP 端的输出数据,在进入 reducer 前,根据指定的字段进行排序;