spark平台学习
wangjinnan16
这个作者很懒,什么都没留下…
展开
-
Spark计算平台算子介绍与学习
1. 算子分类 Spark算子大体上分为两大类 Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发;Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 当然,对于transformation算子,如果要较真的话,还可以继续分一分转载 2017-06-29 09:51:18 · 955 阅读 · 0 评论 -
Spark性能调优基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2017-06-30 09:28:38 · 354 阅读 · 0 评论 -
Spark性能调优高级篇
前言 继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用转载 2017-06-30 10:35:38 · 607 阅读 · 0 评论