自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 Spark调优----数据本地化

Spark数据本地化-->如何达到性能调优的目的1.Spark数据的本地化:移动计算,而不是移动数据2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL  NODE_LOCAL NO_PREF    ...

2018-10-08 23:06:36 254

转载 spark调优----广播变量

广播变量:       在Spark Application中,经常会使用到一个共享变量,众所周知的,Spark是一个并行计算框架,对于这个变量,每一个executor的task在访问它的时候,都会去拷贝一份副本去使用。如下图所示:       1.对于这种默认方式,它会极大的系统的内存,我们可以假设一个集群中有1024个task,这个共享变量大小假设为1M,那么就会去复制1024份到...

2018-10-08 22:47:39 341

转载 spark优化---提高并行度

简介: 并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。意义: 假设,现在已经在spark-submit脚本里面,给我们的spark作业分配了足够多的资源,比如50个executor,每个executor有10G内存,每个executor有3个cpu core,基本已经达到了集群或者yarn队列的资源上限...

2018-10-08 22:03:05 483

转载 spark调优----垃圾回收

背景: 如果在持久化RDD的时候持久化了大量的数据那么java 虚拟机在垃圾回收的时候就可能成为一个性能瓶颈。因为java虚拟机会定期的进行垃圾回收,此时会最总所有的java对象并且在垃圾回收时找到些不在使用的对象进行回收。垃圾回收的性能开销,是根内存中对象的数量成正比的所以对于垃圾回收的性能问题首先要做的是,使用高效的数据结构,比如array和String 其次在持久化RDD时候。使...

2018-10-07 22:12:35 1569

转载 spark优化----序列化持久化

简介: 除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能,因为很有可能,RDD的数据是持久化到内存,或者磁盘中的,那么此时如果内存大小不是特别充足,完全可以使用序列化的持久化级别, 如下: 1.MEMORY_ONLY_SER 2.MEMORY_AND_DISK_SER 使用RDD.persist(StorageLeve...

2018-10-07 21:45:01 241

转载 Spark优化----数据结构的优化

概述: 要减少内存的消耗,除了使用高效的序列化类库以外,还有一个很重要的事情,就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销,比如基于指针的Java数据结构,以及包装类型。有一个关键的问题,就是优化什么数据结构?其实主要就是优化你的算子函数,内部使用到的局部数据,或者是算子函数外部的数据。都可以进行数据结构的优化。优化之后,都会减少其对内存的消耗和占用。如何优化数...

2018-10-07 21:28:16 132

转载 Spark调优基本策略

1. RDD的持久化 cahce() persist() checkpoint()2. 避免创建重复的RDD 尽可能复用同一个RDD,类似于多个RDD的数据有重叠或者包含的情况,应该尽量复用一个RDD,以尽可能减少RDD的数量,从而减少算子计算次数4.尽量避免使用shuffle类算子 spark运行过程中,最消耗性能的地方就是shuffle过程(简单...

2018-10-07 21:18:09 124

转载 Spark性能优化----(概述)

一、内存消耗在什么地方 1、每个Java对象,都有一个对象头,会占用16个字节,主要是包括了一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个int类型的field,那么它的对象头实际上比对象自己还要大。 2、Java的String对象,会比它内部的原始数据,要多出40个字节。因为它内部使用char数组来保存内部的字符序列的,并且还得保存诸如数组长...

2018-10-07 20:20:59 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除