- 博客(5)
- 收藏
- 关注
转载 maven 对spark 源码进行编译(基于Centos 7 )
maven 对spark 源码进行编译(基于Centos 7 )1 、写在前面的话 有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示: Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能...
2018-05-30 10:01:36 588
转载 Spark性能优化篇四:shuffle调优
Spark性能优化篇四:shuffle调优shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整...
2018-05-30 09:55:43 251 2
转载 Spark性能优化篇一:资源调优
Spark性能优化篇一:资源调优 所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数说明:该参数用于设置Spark作业总共要用多少个Exe...
2018-05-30 09:53:52 359
转载 Spark性能优化篇三:数据倾斜调优
Spark性能优化篇三:数据倾斜调优前言 继 Spark性能优化篇二: 开发调优和 Spark性能优化篇一:资源调优讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,...
2018-05-30 09:53:00 312
转载 Spark性能优化篇二: 开发调优
Spark性能优化篇二: 开发调优1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很...
2018-05-30 09:51:48 396 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人