一篇文章彻底掌握 hive 中的 ORDER/SORT/CLUSTER/DISTRIBUTE BY 和 BUCKET 桶表

本文详细介绍了 Hive 中的 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY 以及 BUCKET 桶表的概念和用法。ORDER BY 实现全局排序,但可能导致计算时间长;SORT BY 只保证每个 reducer 内部的顺序;DISTRIBUTE BY 控制数据分发到 reducer,配合 SORT BY 可确保内部顺序;CLUSTER BY 结合两者功能;BUCKET 桶表提供采样和高效 MapSide Join 支持,通过 DDL 管理数据分布,有助于解决数据倾斜和小文件问题。" 139496815,11421163,微信小程序表单验证与数据提交实战,"['微信小程序', '前端开发']
摘要由CSDN通过智能技术生成

大家好,我是明哥!

本片文章,我们来总结下,HIVE 中的 order/sort/cluster/distribute by 和 BUCKET 桶表

1 ORDER BY

  • ORDER BY 会对 SQL 的最终输出结果数据做全局排序;

  • ORDER BY 底层只会有一个Reducer 任务 (多个Reducer无法保证全局有序);

  • 当然只有一个 Reducer 任务时,如果输入数据规模较大,会消耗较长的计算时间;

  • ORDER BY 默认的排序顺序是递增 ascending (ASC).

  • 示例语句:select distinct cust_id,id_no,part_date from ads_api_cda_basic_info_parquet_pt order  by cust_id;082287275b7135487d3a1327bf1bada4.png

2 SORT BY

  • SORT BY 不是对 SQL 的最终输出结果数据做排序,而是对 MAP 端的输出数据,在进入 reducer 前,根据指定的字段进行排序;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值