full outer join替换union all解决out_map问题

最新推荐文章于 2023-01-13 17:20:40 发布

ccstargazing

最新推荐文章于 2023-01-13 17:20:40 发布

阅读量648

点赞数

分类专栏： hive 文章标签：大数据数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ccstargazing/article/details/109628072

版权

hive 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

背景：用户画像需要计算X天的数据，并且是用户维度去计算，所以需要对历史数据进行id关联。比如用户前天登陆A手机，昨天登陆B手机，今天在算的时候就要归到一个人。在计算的时候就需要将（-X）--（-1）天的数据进行id关联计算。由于数据量大，运行时间慢，故需优化。

涉及的表：

action_di：行为明细表，需要X个分区。每天6点产出。
id_relation_da：id关联表，每天4点产出。
browse_cnt_da：用户浏览结果表，需要X个action_di和id_relation_da进行id转换后，再多个维度进行计算。

优化前状态：每天6点开始跑，运行2个小时，每天8点产出。

优化思路：由于最新一天的action_di不需要做id转换，所以做一张browse_cnt_mid_da，将（-X）--（-2）的数据进行id转换，此表每天4点就可以开始运行，在6点之前可以运行完成。那么browse_cnt_da直接使用browse_cnt_mid_da和（-1）的action_di数据计算即可，两部分数据union all。预计7点可以产出。

遇到的问题：两部分数据union all后，多维度计算之前，出现了out_map。相当于X天的用户行为数据读了两遍才开始计算，早上集群压力大，map很慢，所以没有达到优化效果。

解决思路：将两个数据的union all替换成full outer join的写法，避免出现out_map。注意两个点：

关联键避免数据倾斜，比如关联键可以加上行为日期。
关联后取数据注意不要取到NULL数据，比如nvl(t1.key, t2.key) as key。

总结：一共有两处优化，一个是链路优化，解决id关联问题；一个是sql优化，避免out_map产生。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
full outer join替换union all解决out_map问题

背景：用户画像需要计算X天的数据，并且是用户维度去计算，所以需要对历史数据进行id关联。比如用户前天登陆A手机，昨天登陆B手机，今天在算的时候就要归到一个人。在计算的时候就需要将（-X）--（-1）天的数据进行id关联计算。由于数据量大，运行时间慢，故需优化。涉及的表：action_di：行为明细表，需要X个分区。每天6点产出。 id_relation_da：id关联表，每天4点产出。 browse_cnt_da：用户浏览结果表，需要X个action_di和id_relation_da进行id转
复制链接

扫一扫

专栏目录

ccstargazing CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

15万+: 周排名

100万+: 总排名

2万+: 访问

: 等级

545: 积分

9: 粉丝

10: 获赞

6: 评论

52: 收藏

私信

关注

热门文章

分类专栏

最新评论

hive mapjoin正确写法，多张表mapjoin正确写法
debugfs: 感谢思路。第二种方法除了合并mr外，所有小表的关联都可以mapjoin，优化前有部分只能走common join。原理我想不清楚，po主有研究吗
hive mapjoin正确写法，多张表mapjoin正确写法
黑眼圈@~@: 我想说，我没明白。只要关联字段不被多个表关联，他会并行？啥原理？能否打印下执行计划发一下呀。
数据仓库建模，维度模型关系模型对比
Tisfy: 十分完美，正如：离离原上草，一岁一枯荣。
hive union底层原理，union与union all再group by的性能对比
哒哒达: 感谢博主
hive union底层原理，union与union all再group by的性能对比
ccstargazing: 本次测试将四份数据去重合并，其中一份数据使用了grouping sets，所以这份数据是单独进行了一次reduce。（博客第三行）所以你可以理解为是四个map。在mr的过程中，逻辑层优化器ReduceSinkDeDuplication，合并线性的OperatorTree中partition/sort key相同的reduce。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。