Spark任务拆分-并发问题

最新推荐文章于 2024-09-08 21:24:57 发布

iteye_15241

最新推荐文章于 2024-09-08 21:24:57 发布

阅读量985

点赞数

分类专栏： Spark调优文章标签： Spark 并发

本文链接：https://blog.csdn.net/iteye_15241/article/details/82651207

版权

Spark调优专栏收录该内容

5 篇文章 0 订阅

订阅专栏

现有的结构是Spark从HBase中提取数据，进行计算操作。

Spark的并发是由：

可用CPU核数*Worker数量，来确定上限的，这种情况针对于单节点。

并发数还受到RDD的分区数量影响的，说回Hbase的话，就是受到Region数影响，基本与其一致；

所以如果在HbaseConf中确定的Region数量只有1个的话，那么会出现Spark单线程执行的情况；

这个时候可以考虑使用coalesce方法来进行分区动作，但是这个方法需要注意的是，如果当前的分区数小于你期望的分区，单纯的使用coalesce加分区数的方法并没有什么用，需要强制进行shuffle动作。

即coalesce(numPart,true)

此方式可有效进行分区动作，但是意味着大量的shuffle动作；

其实我理解可以Spark生成任务时，在外部进行任务拆分，例如按天，或者按年等；相较于在内部进行分区动作，可能不会出现shuffle的情况。

但是，如果你单个节点的并发数并不是很高的情况下，那么任务被派发到其它节点执行，而数据还是需要从另外节点来获取，其实跟shuffle的动作相差并不是太大，这个可以自行考虑；

分区的数量可以设定为集群任务的最高值。

以上仅为个人浅见，欢迎大家讨论。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_15241

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

[Spark版本更新]--2.3.0发行说明

欢迎来到我的博客，一起探索代码里的世界！

03-03

1万+

自从2017年12月1日发布spark-2.2.1以来，已有3个月时间。2018年2月28日，spark官方发布了一个大版本Spark-2.3.0，解决了1399个大大小小的问题。一、DataBricks做了相关说明今天，我们很高兴地宣布Databricks上的Apache Spark 2.3.0作为其Databricks Runtime 4.0的一部分。我们要感谢Apache Spark社区为S...

Spark常见问题解决-日志和排查办法

someInNeed的博客

01-25

511

（3）查看是否任务参数设置不合理，例如executor-memory是设的大，但是--num-executors设置的很少才几十个，可以根据集群情况和业务量大小合理增大executor数，数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据（如128或256M），在没有设置--executor-cores等参数的情况下，默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。

参与评论您还未登录，请先登录后发表或查看评论

spark 流程详解（任务切分，调度，通讯架构）

weixin_45425054的博客

03-08

1046

spark整个流程第6步详解解析： 6.1的LauncherPool为线程池，它会启动一个线程类NMclient用来和NodeManager通信用，然后会启动NodeManager中的一个进程ExecutorBackend，然后启动两个通信模块（也就是RPC终端，用来通信）通信注册完后，第9步建立Executor计算对象（线程），也就是跑RDD的承担者注：7，8，9,10步在通讯架构中详解任务切分第十步：任务切分解析：如下图所以当Exeuctor启动完成后，就开始跑代码，直到遇到第一个行动算

Spark 任务划分

qq_41982570的博客

03-04

569

Spark 任务划分

Spark的介绍

最新发布

weixin_42037035的博客

09-08

1130

DataBricks官网：https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的，Spark计算是基于内存的。spark的发展历程：2009年，Spark诞生于伯克利AMPLab，伯克利大学的研究性项目。2014年2月成为Apache顶级项目，同年5月发布Spark 1.0正式版本2018年Spark2.4.0发布，成为全球最大的开源项目，目前是Apache中的顶级项目之一。

spark 任务划分

stable_zl的博客

05-19

539

一、宽窄依赖 1.1 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女 1.2 宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition，会引起shuffle,总结：宽依赖我们形象的比喻为超生二、DAG DAG 叫做有向无环图，原始的 RDD 通过一系列转换就形成了 DAG，根据 RDD 之间的依赖关系将 DAG 划分为不同的 Stage，对于窄依赖，partition 的处

Spark中任务划分

qq_43193797的博客

04-12

844

RDD任务切分中间分为：Application、Job、Stage和Task 1）Application：初始化一个SparkContext即生成一个Application； 2）Job：一个Action算子就会生成一个Job； 3）Stage：根据RDD之间的依赖关系的不同将Job划分成不同的Stage，遇到一个宽依赖则划分一个Stage；对于宽依赖，由于有Shuffle的存在，只能在...

SparkRDD的任务切分

寒暄的博客

08-04

734

角色 SparkRDD的任务角色分为四个: Application 每一个SparkContext就是一个Application Job Application中每一个Action会生成一个Job Stage 根据RDD之间的依赖关系的不同将Job划分为不同的Stage（以宽依赖为界） Task Stage是一个TaskSet，将Stage划分的结果发送到不同的Executor执行即为一个Task ...

实现Kafka集成Spark的Scala库：spark-kafka-rdd使用解析

资源摘要信息:"Spark-Kafka-RDD是一个Scala库，它允许Kafka作为数据源集成到Spark平台上。...因此，Scala在处理并发和分布式系统方面有天然的优势，这与Spark和Kafka这类分布式系统的使用场景非常契合。

“戏”说spark---资源调度和任务调度

weixin_35602748的博客

12-05

997

在“戏”说Spark-spark运行模式简解一文中不管是以client或者是以cluster的方式提交到Standalone上还是提交到yarn上，我们就概括性的描述了提交运行的流程，大概就是创建Driver，申请资源，分发任务，执行任务，返回结果这么一个过程。在“戏”说Spark-Spark核心-Stage划分及Pipline的计算模式一文中，我们详细的了解了RDD宽窄依赖的划分是为了Stage的划分，Stage的划分是为了实现再依赖组成的stage里面的Pipline的计算模型，那Spark是怎么实现资

[Spark版本升级]-- spark-2.2.0发行说明

欢迎来到我的博客，一起探索代码里的世界！

07-18

6606

Spark-2.2.0版本发行时间：2017-7-11 一、Jira说明： https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12338275 子任务 [ SPARK-1267 ] - 添加PySpark的pip安装程序 [ SPARK-3249 ] - ...

Spark源码-任务提交流程-8-DAGScheduler任务切分

m0_37817767的博客

08-08

585

spark源码

java任务分解_Spark如何将切片分解为任务/执行者/工作者？

weixin_33855578的博客

02-16

130

1)我在哪里可以看到任务级别的详细信息？内部执行程序我没有看到任务分解，所以我可以看到切片对UI的影响 .我不明白你的问题，因为从UI我们可以肯定看到分区的效果(或者你喜欢的切片) .2)如何以编程方式查找上面的map函数的工作集大小？我假设它是n /切片(上面100000)请详细说明您感兴趣的尺寸 . 如果你的意思是每个工作者消耗的内存量...每个Spark分区都有64MB所以...来自官方的S...

spark中的task 分割

金字塔上的蜗牛的专栏

04-11

1338

spark的思想就是把一个巨大的任务通过网络分配给多个机器去执行，然后从多个机器返回计算结果并整合完成用户所需要的计算。这里有一个tradeoff的问题，每个task的任务分配并不是越大越好，也不是越小越好，是根据计算量和节点的计算能力平衡的结果。一个合理的task任务分配可以达到最快的计算速度。

深入理解spark的工作机制，spark任务提交和执行流程

qq_36770189的博客

08-27

1314

spark的工作机制：用户在client端提交作业后，会由Driver运行main方法并创建spark context上下文。SparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend， Executor向SparkContext申请Task。SparkContext...

spark中RDD的Stage任务划分

jinglinqwert的博客

01-13

948

1）DAG有向无环图 DAG（Directed Acyclic Graph）有向无环图是由点和线组成的拓扑图形，该图形具有方向，不会闭环。例如，DAG记录了RDD的转换过程和任务的阶段。 2）RDD任务切分中间分为：Application、Job、Stage和Task （1）Application：初始化一个SparkContext即生成一个Application；（2）Job：一个Acti...

spark的任务划分和任务调度详解

sghuu的博客

12-26

2588

以spark-cluster模式为例 spark的任务提交流程介绍：https://blog.csdn.net/sghuu/article/details/103710145 提交一个Spark应用程序，首先通过Client向ResourceManager请求启动一个Application，同时检查是否有足够的资源满足Application的需求，如果资源条件满足，则准备ApplicationMa...

黑猴子的家：Spark RDD 任务切分

黑猴子的博客

06-08

486

1、一个action操作就是一个job任务。 2、应用 -> 任务 -> stage -> task。 3、stage的划分，是根据宽依赖来进行划分，划分的过程是从后往前划分，如果遇到一个宽依赖算子，那么就将当前stage压入栈底，以此划分到代码的起始位置，划分完成之后，从栈顶依次进行执行。 4、task：一个分区就是一个t...

大数据测试：利用spark将表中数据拆分

闫振兴的博客

07-31

4680

# coding:utf-8 from pyspark.sql import SparkSession import os if __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print(os.path) spark = SparkSessi...