问题引出
我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?
常规做法
最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:
sc = SparkSession\
.builder\
.appName("Test")\
.getOrCreate()
A = sc.sparkContext.textFile("...")
B = sc.sparkContext.textFile("...")
C = sc.sparkContext