大数据IMF传奇行动绝密课程第46课:Spark性能优化第二季

原创 2016年08月30日 19:42:57

Spark性能优化第二季

1、Task性能优化
2、数据倾斜性能优化
3、网络性能优化

一、Task性能优化
1、慢任务的性能优化:可以考虑每个Partition处理的数据量,同时建议开启spark.speculation,开启任务推测,在任务还没有完成的情况下开启相同的任务,谁先执行完就执行它。
2、尽量减少Shuffle,例如我们要尽量减少groupByKey的操作,因为groupByKey会要求通过网络拷贝(Shuffle)所有的数据,优先考虑使用reduceByKey,因为reduceByKey会首先reduce locally,再例如在进行join操作的时候,形如(K1,V1)和(K1,V2)=>(K1,V3)此时就可以再进行pipeline,但是(o1) join (o2)=> (o3),此时会产生Shuffle操作;
3、Repartition:增加Task数量的时候可以考虑使用,从而更加充分使用计算资源;
Coalesce:整理Partition碎片;
二、数据倾斜
1、定义更加合理的Key(或者说自定义Partitioner);
2、可以考虑使用ByteBuffer来存储Block,最大的存储数据为2G,如果超过这个大小会报异常;
三、网络
1、可以考虑Shuffle的数据放在Tachyon中带来更好的数据本地性,减少网络的Shuffle;
2、优先采用Netty的方式进行网络通信
3、广播:例如进行Join操作的时候采用Broadcast可以达到完全的数据本地性的情况下进行Join操作
4、mapPartitions中的函数会直接作用于整个Partition(一次!)
5、最优先考虑是PROCESS_LOCAL(spark默认情况下这样做),所以更应该考虑使用Tachyon;
6、如果要访问HBase或者Canssandra,务必保证数据处理发生在数据所在的机器上。

大数据IMF传奇行动绝密课程第48课:Spark性能优化第四季

Spark性能优化第四季1、序列化 2、JVM性能调优 一、Spark性能调优之序列化 1、之所以进行序列化,最重要的原因是内存空间有限(减少GC的压力,最大化的避免Full GC的产生,因为一...

大数据IMF传奇行动绝密课程第22课:RDD的依赖关系彻底解密

RDD的依赖关系彻底解密 RDD依赖关系:窄依赖、宽依赖 窄依赖是指每个父RDD的Partition最多被一个子RDD的一个Partition所使用,例如map, filter等都会产生窄依赖 ...

大数据IMF传奇行动绝密课程第50课:Spark性能优化第六季

大数据IMF传奇行动绝密课程第50课:Spark性能优化第六季 1、关于Shuffle的再次说明 2、Shuffle性能优化 一、Shuffle性能调优 1、问题:Shuffle output...

大数据IMF传奇行动绝密课程第51课:Spark性能优化第七季

Spark性能优化第七季1、“钨丝计划”产生的根本背景 2、“钨丝计划”内幕详解 3、“钨丝计划”下的Shuffle 一、“钨丝计划”产生的本质原因 1、Spark作为一个一体化多元化的(大)...

大数据IMF传奇行动绝密课程第116课:Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算

Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算Spark Streaming的处理模式是按照Batch Duration进行Micro Batch Compu...

大数据IMF传奇行动绝密课程第54课:Spark性能优化第十季之Spark统一内存管理

Spark性能优化第十季之Spark统一内存管理1、传统的Spark内存管理的问题 2、Spark统一内存管理 3、展望Spark内存分为三部分:Execution、Sotrage、Other; ...

大数据IMF传奇行动绝密课程第53课:Spark性能优化第九季 Spark Tungsten内存使用彻底解密

Spark Tungsten内存使用彻底解密1、到底什么是Page 2、Page具体的两种实现方式 3、Page的使用的源码详解一、Tungsten中到底什么是Page? 1、在Spark中其实...

大数据IMF传奇行动绝密课程第45课:Spark性能优化第一季

Spark性能优化第一季1、Spark性能优化需要思考的基本问题 2、CPU和Memory 3、并行度和Task 4、网络一、Spark性能优化核心基石 1、Spark是采用Master-Sl...

大数据IMF传奇行动绝密课程第120课:Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中

Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中1、生产环境下End-to-End的流处理程序 2、Spark Streaming安全...

大数据IMF传奇行动绝密课程第21课:从Spark架构中透视Job

从Spark架构中透视Job1、通过案例观察Spark架构 2、手动绘制Spark内部架构 3、Spark Job的逻辑视图解析 4、Spark Job的物理视图解析spark粗粒度Spark主...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据IMF传奇行动绝密课程第46课:Spark性能优化第二季
举报原因:
原因补充:

(最多只允许输入30个字)