hive笛卡尔积优化、join或left join 无on条件优化

在大数据处理中,笛卡尔积可能导致数据膨胀,影响计算效率。本文介绍了如何处理imeis_table(40亿条)与dim_table(800+条)的笛卡尔积场景。常规的Python脚本写法在数据量大时会导致单个reduce任务过载。通过改进写法,使用LATERAL VIEW EXPLODE进行列转行,可以在map阶段完成并行处理,提高执行效率,避免reduce端的数据倾斜问题。
摘要由CSDN通过智能技术生成

     正常业务中我们是不希望看见笛卡尔积的,因为它会造成数据膨胀,数据成倍增长,极有可能使得计算崩溃。但是有时因为业务需要,我们又不可避免笛卡尔积,那我们该如何做呢?接下来我们来看一种场景。

业务背景

imeis_table表中只有imei字段  数据量40亿条左右

dim_table表一张维表,数据量800+条

目的是的imeis_table表与dim_table表做笛卡尔积,结果就是40亿*800+条,显然数据量是非常大

常规写法(pyhton脚本)

import os

CMD = "beeline -e \" {conf} %s \"".format(conf=conf)

sql = """
select
    t2.imei, alias_name as class_en, t1.feature
from (select feature, alias_name from dim_table where data_date=20200909 and type=0) t1
join imeis_table t2
on 1 = 1
"""
status = os.system(CMD % sql)
if status == 0:
    return status
else
    print("sql执行异常")

在数据量较少时,此种写法并没有什么问题,一旦数据达到一定量级,reduce将无法处理。

现在说下一以上写法存在的主要隐患,首先我们要了解MapReduce原理,知道join或left join是如何工作的。以上写法会造成MapReduce计算只有一个redu

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值