自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朱磊的博客

记录学习过程,写写工作日常

  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark 性能优化:代码中常用的几个调整点

前面三篇文章:资源分配,调整并行度,重构 RDD 和 RDD 持久化,这三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没有那么大。1,使用广播变量在 task 执行算子函数运算的时候,如果要用到外部变量,这种时候需要使用广播变量。因为,如果不使用广播变量,那么所使用的外部变量会在每个 ...

2019-05-30 16:08:42 458

原创 Spark 性能优化:重构 RDD 及 RDD 持久化

在写 Spark 的应用时,应该尽量避免这两种情况:1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。2,出现公用的 RDD 时候不做持久化操作,比如:RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2然后用 RDD2...

2019-05-30 16:08:14 240

原创 Spark 性能优化:调节并行度

并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 task 去执行,各个 stage 划分的 task 数量就代表了 Spark 作业在该 stage 的并行度。一,调整并行度的作用假设 Spark 作业的处理的数据量是不变的,这些数据会被分配到每个 task 中去处理,在集群...

2019-05-30 16:07:44 998

原创 Spark 性能优化:资源分配

性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。一,分配的资源有哪些?1,分配的 executor 数量;2,每个 executor 需要的 core 数量;3,每个 executor 需要的内存大小;4,driver 的内存大小 (这个影响不大) ;二,在哪里去配置这些资源?...

2019-05-30 16:06:59 850

原创 Spark 的执行过程

1,Spark 应用程序启动在自己的 JVM 进程中,即 Driver 进程。启动后 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图,然后切分成最小的执行单位:task。注:Spark 应用会根据 Action 操作将其划分成多个 job,每个 job 中又会根据 shuffle 动作划分成多个 stage,构...

2019-05-27 09:15:16 605

原创 什么是 RDD ?

Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。1,RDD 有三个基本特性这三个特性分别为:分区,不可变,并行操作。a, 分区每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD 理解成一个大的数组,数组中的每个元素就代表一个分区 (Partition) 。在物理存储中,每个分区...

2019-05-23 14:45:17 668

原创 Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上;2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);3,然后,会将这些 Inpu...

2019-05-22 11:35:34 724

原创 Spark 中几个 join 算子

Spark 中和 join 相关的算子有这几个:join、fullOuterJoin、leftOuterJoin、rightOuterJoin这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当于左连接,rightOuterJoin 相当于右连接。分别解释下这几种连接在 sql 中的含义,sp...

2019-05-16 14:35:57 1714

TabHostDemo

Android FragmentTabHost轻松实现微博主界面,相关解释在我的博客中:http://blog.csdn.net/zzz_zzz_z/article/details/51481378

2016-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除