- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 Spark 性能优化:代码中常用的几个调整点
前面三篇文章:资源分配,调整并行度,重构 RDD 和 RDD 持久化,这三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没有那么大。1,使用广播变量在 task 执行算子函数运算的时候,如果要用到外部变量,这种时候需要使用广播变量。因为,如果不使用广播变量,那么所使用的外部变量会在每个 ...
2019-05-30 16:08:42 458
原创 Spark 性能优化:重构 RDD 及 RDD 持久化
在写 Spark 的应用时,应该尽量避免这两种情况:1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。2,出现公用的 RDD 时候不做持久化操作,比如:RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2然后用 RDD2...
2019-05-30 16:08:14 240
原创 Spark 性能优化:调节并行度
并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 task 去执行,各个 stage 划分的 task 数量就代表了 Spark 作业在该 stage 的并行度。一,调整并行度的作用假设 Spark 作业的处理的数据量是不变的,这些数据会被分配到每个 task 中去处理,在集群...
2019-05-30 16:07:44 998
原创 Spark 性能优化:资源分配
性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。一,分配的资源有哪些?1,分配的 executor 数量;2,每个 executor 需要的 core 数量;3,每个 executor 需要的内存大小;4,driver 的内存大小 (这个影响不大) ;二,在哪里去配置这些资源?...
2019-05-30 16:06:59 850
原创 Spark 的执行过程
1,Spark 应用程序启动在自己的 JVM 进程中,即 Driver 进程。启动后 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图,然后切分成最小的执行单位:task。注:Spark 应用会根据 Action 操作将其划分成多个 job,每个 job 中又会根据 shuffle 动作划分成多个 stage,构...
2019-05-27 09:15:16 605
原创 什么是 RDD ?
Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。1,RDD 有三个基本特性这三个特性分别为:分区,不可变,并行操作。a, 分区每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD 理解成一个大的数组,数组中的每个元素就代表一个分区 (Partition) 。在物理存储中,每个分区...
2019-05-23 14:45:17 668
原创 Spark 中 File,Block,Split,Task,Partition,RDD概念的理解
1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上;2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);3,然后,会将这些 Inpu...
2019-05-22 11:35:34 724
原创 Spark 中几个 join 算子
Spark 中和 join 相关的算子有这几个:join、fullOuterJoin、leftOuterJoin、rightOuterJoin这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当于左连接,rightOuterJoin 相当于右连接。分别解释下这几种连接在 sql 中的含义,sp...
2019-05-16 14:35:57 1714
TabHostDemo
2016-05-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人