正常业务中我们是不希望看见笛卡尔积的,因为它会造成数据膨胀,数据成倍增长,极有可能使得计算崩溃。但是有时因为业务需要,我们又不可避免笛卡尔积,那我们该如何做呢?接下来我们来看一种场景。
业务背景
imeis_table表中只有imei字段 数据量40亿条左右
dim_table表一张维表,数据量800+条
目的是的imeis_table表与dim_table表做笛卡尔积,结果就是40亿*800+条,显然数据量是非常大
常规写法(pyhton脚本)
import os
CMD = "beeline -e \" {conf} %s \"".format(conf=conf)
sql = """
select
t2.imei, alias_name as class_en, t1.feature
from (select feature, alias_name from dim_table where data_date=20200909 and type=0) t1
join imeis_table t2
on 1 = 1
"""
status = os.system(CMD % sql)
if status == 0:
return status
else
print("sql执行异常")
在数据量较少时,此种写法并没有什么问题,一旦数据达到一定量级,reduce将无法处理。
现在说下一以上写法存在的主要隐患,首先我们要了解MapReduce原理,知道join或left join是如何工作的。以上写法会造成MapReduce计算只有一个redu