spark
herokang
会飞的猿
展开
-
spark并行度设置及submit参数
–spark submit–num-executors该参数主要用于设置该应用总共需要多少executors来执行,Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数,并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况,太少了无法充分利用集群资源,太多了则难以分配需要的资源。–executor-memory...原创 2020-04-10 21:12:06 · 6603 阅读 · 0 评论 -
spark与Flink对比
批流理念不同spark准确的说是批处理,Spark streaming是微批处理,spark底层都依赖于RDDflink是流式处理,批处理看做是有限的流处理SQLsparksql支持的更好flink一般,在完善中机器学习图计算等spark有mllib和graphx等模块flink比较薄弱任务spark,driver管理,Executor执行,通过RDD分区数和shuffle划分...原创 2020-04-07 01:16:47 · 2911 阅读 · 0 评论 -
spark(六)序列化及多线程问题
一、序列化我们这里不讨论什么是序列化以及序列化有什么作用、序列化方式等问题。此处我们只讨论spark程序开发中序列化的一些问题我们都知道spark程序实际计算时是在Executor上执行,因此Driver端的对象如果Executor要使用的话需要通过网络传输,因此对象一定要实现序列化接口,否则单机测试可能没问题,但是放到集群上就报序列化错误。无论是直接使用,或通过广播发送,对象都要序列化。...原创 2020-04-05 22:58:02 · 1338 阅读 · 0 评论 -
spark(五)执行流程与stage划分
一、任务流程我们以生产中常用的yarn环境为例提交任务到yarnyarn申请分配资源根据RDD流程构建DAG(有向无环图)DAGsheduler将dag划分及分解stage根据分解的stage生成不同的task将task提交到不同的Executor上执行执行完毕,释放资源二、shuffle大多数spark作业的性能主要就是消耗了shuffle过程,shuffle时数据会重新...原创 2020-04-05 17:55:10 · 1252 阅读 · 0 评论 -
spark(四)广播变量
一、广播变量在App中经常会用到List、MaP等变量。如果不适用广播变量,默认每个task都会拉取一份副本到本地。广播变量的好处,不是每个task一份变量副本,而是变成每个节点的executor才一份副本。这样的话,就可以让变量产生的副本大大减少。 广播变量,初始的时候,就在Drvier上有一份副本。 task在运行的时候,想要使用广播变量中的数据,此时首先会在自己本地的Executor对...原创 2020-04-05 02:10:01 · 1038 阅读 · 0 评论 -
spark(三)缓存与checkpoint
一、应用场景缓存:将rdd所需的数据缓存到Executor的内存中,主要用于空间换时间,如某个spark任务期望执行时间在xx以内,目前达不到,此时在内存充足的情况下可以查看是否有重复利用的rdd数据,可以对该数据进行cachecheckpoint:主要用于任务容错,比如机器学习进行迭代式计算,需要计算10小时才能出结果,如果在第9个小时任务出错,重新提交需要重新跑所有数据。可以在某些节点对...原创 2020-04-05 01:29:10 · 1160 阅读 · 0 评论 -
spark(二)创建RDD时默认分区数
一、概述Spark的分区数对于Spark性能调优很重要,如果分区数少,那么并行执行的task就少,比如分区数为1,即使你分配的Executor很多,而实际执行的Executor只有1个,如果数据量很大的话,那么任务执行的就很慢,因此熟悉各种情况下默认的分区数对于Spark调优就很有必要了,特别是执行完算子返回的结果分区数为1的情况,更需要特别注意。二、默认最小分区数:defaultMinPar...原创 2020-04-04 18:32:53 · 2627 阅读 · 0 评论 -
spark(一)spark中map与mapPartitions的区别
一、map与mapPartitions的区别在 Spark 性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。但是也不一定是每种业务场景都是如此,我们先来说一下两者的区别map 操作:对 RDD 中的每个元素进行操作(可以理解为遍历),比如使用一个function则需要执行该 function n 次,其中 n 为元素个数;执行 1 次 function 只...原创 2020-04-04 17:34:56 · 1705 阅读 · 0 评论