spark
_独钓寒江雪
这个作者很懒,什么都没留下…
展开
-
spark 算子combineByKey 详解
combineByKey 作为spark 的核心算子之一,有必要详细了解。reduceByKey 和groupByKey 等健值对算子底层都实现该算子。原创 2017-10-05 12:22:57 · 690 阅读 · 0 评论 -
spark 常用算子 详解
Spark算子可以分成两大类: 1.Transformation类算子 2.Action类算子。 转换(转化操作)算子,这类转化操作为懒执行,不会触发提交作业,从而也不会处理中间过程。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 行动算子,这类算子会触发SparkC原创 2017-10-05 17:00:42 · 3044 阅读 · 0 评论 -
Spark性能优化指南——基础篇 (转自美团)
Spark性能优化指南——基础篇 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经转载 2017-12-04 15:32:01 · 463 阅读 · 0 评论 -
Spark性能优化指南——高级篇 (转自美团)
转自:https://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能转载 2017-11-23 10:20:18 · 461 阅读 · 0 评论