2018年05月_超o仔O

12月 10月 05月 03月

转载 maven 对spark 源码进行编译（基于Centos 7 ）

maven 对spark 源码进行编译（基于Centos 7 ）1 、写在前面的话有些小伙伴可能会问：Spark官网不是已经提供了Spark针对不同版本的安装包了吗，我们为什么还需要对Spark源码进行编译呢？针对这个问题我们到Spark官网: spark.apache.org来看下，如下图所示: Spark官网的确是提供了一些Hadoop版本的Spark安装包，但是提供的这些是否能...

2018-05-30 10:01:36 588

转载 Spark性能优化篇四：shuffle调优

Spark性能优化篇四：shuffle调优shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整...

2018-05-30 09:55:43 251 2

转载 Spark性能优化篇一：资源调优

Spark性能优化篇一：资源调优所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着作业运行原理中的某个部分，我们同时也给出了一个调优的参考值。num-executors参数说明：该参数用于设置Spark作业总共要用多少个Exe...

2018-05-30 09:53:52 359

转载 Spark性能优化篇三：数据倾斜调优

Spark性能优化篇三：数据倾斜调优前言继 Spark性能优化篇二：开发调优和 Spark性能优化篇一：资源调优讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，...

2018-05-30 09:53:00 312

转载 Spark性能优化篇二：开发调优

Spark性能优化篇二：开发调优1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很...

2018-05-30 09:51:48 396 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 maven 对spark 源码进行编译（基于Centos 7 ）

转载 Spark性能优化篇四：shuffle调优

转载 Spark性能优化篇一：资源调优

转载 Spark性能优化篇三：数据倾斜调优

转载 Spark性能优化篇二： 开发调优

空空如也

空空如也

转载 Spark性能优化篇二：开发调优