spark
文章平均质量分 84
东南枝DP
4年一线大厂经验,高级算法工程师
展开
-
Spark实践之join优化
join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类: map-side join 和 reduce-side join。当大表和小表join时,用map-side join能显著提高效率。。/** * Created by shenjiyi on 2015/7/8. */package com.testimport com.test.uti原创 2015-07-08 10:57:05 · 6947 阅读 · 0 评论 -
记一次spark mllib stackoverflow踩坑
以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。结果一跑,我擦。。。居然stackoverflow了。。源码如下:from pyspark.mllib.recommendation import ALSfrom numpy import arrayfrom pyspark import Spar原创 2017-11-24 17:30:32 · 3160 阅读 · 6 评论 -
从一段代码浅谈pyspark性能优化
问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:sc = SparkSession\ .builder...原创 2018-03-14 17:36:51 · 6346 阅读 · 2 评论