从一段代码浅谈pyspark性能优化

最新推荐文章于 2024-07-25 17:07:01 发布

置顶

东南枝DP

最新推荐文章于 2024-07-25 17:07:01 发布

阅读量6.3k

点赞数 8

分类专栏： spark hadoop 文章标签： spark pyspark join 优化分布式

本文链接：https://blog.csdn.net/asdfghjkl1993/article/details/79557869

版权

问题引出

我们在日常的特征工程中，常常需要将多张表进行关联操作，也就是所谓的join。现在有三张表A,B,C，其中A表数据总大小约300M, B表总数据大小约15G，C表数据总大小约400G，现在的需求是对这三张表做join，该如何实现？

常规做法

最简单的一种实现，就是先将其中的两张表join，再将剩下的一张表做join，代码如下：

sc = SparkSession\
        .builder\
        .appName("Test")\
        .getOrCreate()

A = sc.sparkContext.textFile("...")
B = sc.sparkContext.textFile("...")
C = sc.sparkContext

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

东南枝DP

关注关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中，常常需要将多张表进行关联操作，也就是所谓的join。现在有三张表A,B,C，其中A表数据总大小约300M, B表总数据大小约15G，C表数据总大小约400G，现在的需求是对这三张表做join，该如何实现？常规做法最简单的一种实现，就是先将其中的两张表join，再将剩下的一张表做join，代码如下：sc = SparkSession\ .builder...
复制链接

扫一扫