1.hive优化

最新推荐文章于 2024-01-30 16:23:22 发布

Jhpx__

最新推荐文章于 2024-01-30 16:23:22 发布

阅读量102

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/Jhpx__/article/details/99069681

版权

Hive 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参数优化

group by优化

  Map 端部分聚合：
   并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。
   MapReduce 的 combiner 组件参数包括：
       set hive.map.aggr = true 是否在 Map 端进行聚合，默认为 True
       set hive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行聚合操作的条目数目
       当使用 Group By 有数据倾斜的时候进行负载均衡：
           set hive.groupby.skewindata = true 当 sql 语句使用 groupby 时数据出现倾斜时，如果该变量设置为 true，那么 Hive 会自动进行负载均衡。
策略就是把 MR 任务拆分成两个：第一个先做预汇总，第二个再做最终汇总在 MR 的第一个阶段中，Map 的输出结果集合会缓存到 maptaks 中，每个 Reduce 做部分聚合操作，并输出结果，
这样处理的结果是相同 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；
第二个阶段再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

Distinct去重优化

Jhpx__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.hive优化

参数优化group by优化Map 端部分聚合：并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。 MapReduce 的 combiner 组件参数包括： set hive.map.aggr = true 是否在 Map 端进行聚合，默认为 Tru...
复制链接

扫一扫