Spark
文章平均质量分 71
RunningShare
这个作者很懒,什么都没留下…
展开
-
Spark executor中task的数量与最大并发数
关于executor和task的概念可以参考官方文档本文使用的源码是spark 2.0.0版本Task的数量根据类DAGScheduler中的submitMissingTasks方法可以知道,在stage中会为每个需要计算的partition生成一个task,换句话说也就是每个task处理一个partition。//From submitMissingTasks...... val tasks: Seq[Task[_]] = try { stage match {转载 2021-10-16 16:31:18 · 1084 阅读 · 0 评论 -
flink solt和并行度
编译flink-shaded-hadoop-2-uber.jar包从Flink 1.10开始,flink-shaded-hadoop-2-uberFlink项目不再正式支持使用发行版。如果想建立flink-shaded对供应商特定的Hadoop版本,您必须首先描述配置特定供应商的Maven仓库在本地Maven安装在这里。完成此步骤后,将flink-shaded-hadoop-2-uber.jar放入Flink下的/lib目录中。编译环境Flink1.10 Hadoop2.7.7转载 2021-09-07 23:16:55 · 444 阅读 · 0 评论 -
spark shuffle:分区原理及相关的疑问
一、分区原理1.为什么要分区?(这个借用别人的一段话来阐述。)为了减少网络传输,需要增加cpu计算负载。数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免的,把大文件压缩变小文件, 从而减少网络传输,但是增加了cpu的计算负载。Spark里面io也是不可避免的,但是网络传输spark里面进行了优化。spark把rdd进行分区(分片),放在集群上并...转载 2020-09-16 18:13:18 · 664 阅读 · 0 评论 -
Spark的Master、Worker、Executor以及task等概念
1、先表结论,如下图所示:2、文字说明:每个Worker上存在一个或者多个ExecutorBackend 进程。每个进程包含一个Executor对象,该对象持有一个线程池,每个线程可以执行一个task。每个application包含一个 driver 和多个 executors,每个 executor里面运行的tasks都属于同一个application。每个Worker上存在一...转载 2020-02-10 22:04:17 · 812 阅读 · 0 评论 -
Spark Streaming性能调优
一、 数据接收并行度调优1、通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个...转载 2020-01-17 14:24:54 · 247 阅读 · 0 评论 -
Spark学习-Coalesce()方法和rePartition()方法
最近使用spark中遇到了重分区的问题,本文对下面三篇文章内容按照自己逻辑进行整理,mark下!!https://www.cnblogs.com/fillPv/p/5392186.html https://blog.csdn.net/do_yourself_go_on/article/details/74315834 https://blog.csdn.net/u011981433/art...转载 2020-01-17 13:51:15 · 236 阅读 · 0 评论 -
Spark中master、worker、executor和driver的关系
刚刚接触Spark的时候对这些概念没有好好思考,走马观花似的扫过去了,后面碰到master、worker、executor和driver的时候,也就没想太多,最近刚刚跑通了一个spark项目,准备好好研究一下程序的运行原理,却突然发现对于master、worker、executor和driver一知半解,对这些概念没有很好地理解,实在难以深入学习spark,于是,查了一些资料,做了一些简单的记载供...转载 2020-01-07 11:22:45 · 633 阅读 · 4 评论 -
在程序中指定Spark和Hadoop的用户
Spark和Hadoop都被设计为多用户共享使用,每个用户程序都关联一个用户,Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式,每个用户程序关联的用户不可随意指定,而至少需要提供必要的认证信息(如密码);如果是弱认证方式,则可以在用户程序中指定关联用户,而不需要提供认证信息。Spark(0.8.0版本)使用的是弱认证方式,Hadoop可以配置使用强认证方式(...转载 2019-12-27 17:28:31 · 3300 阅读 · 0 评论