黑暗之神

Fighting in the dark

从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩...

2018-03-14 17:36:51

阅读数 1500

评论数 1

记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。 结果一跑,我擦。。。居然stackoverflow了。。 源码如下: from pyspark.mllib.recommendation import ALS fr...

2017-11-24 17:30:32

阅读数 1467

评论数 3

Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类: map-side join 和  reduce-side join。当大表和小表join时,用map-side join能显著提高效率。。 /** * Created by shenjiyi on 2015...

2015-07-08 10:57:05

阅读数 5973

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭