![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
流一恩典
这个作者很懒,什么都没留下…
展开
-
Spark中的Application、Job、Stage与Task区别
首先,我先将这四种的定义列出来,之后咱们再通过简单代码进行分析。RDD任务切分中间分为:Application、Job、Stage和Task(1)Application:初始化一个SparkContext即生成一个Application;(2)Job:一个Action算子就会生成一个Job;(3)Stage:Stage等于宽依赖的个数加1;(4)Task:一个Stage阶段中...原创 2020-05-05 10:30:42 · 1722 阅读 · 1 评论 -
spark-submit运行上传jar包问题
问题1: hadoop2.7+spark1.2: class not found com.hadoop.compression.lzo.LzoCodec测试环境,上传jar包,spark-submit运行报上述错误,主要原因是:hadoop集群的core-site.xml有:<property><name>io.compression.codec.l...原创 2020-05-02 08:59:08 · 1146 阅读 · 0 评论 -
spark中Master与Worker区别及Driver与Executor区别
Master和Worker是Spark的守护进程,即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。...原创 2020-05-01 14:03:35 · 1915 阅读 · 1 评论 -
spark-shell启动失败
执行spark-shell命令后,出现以下报错:java.net.BindException: Cannot assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port)! Consider explicitly setting the appropriate b...原创 2020-03-17 11:20:23 · 1907 阅读 · 0 评论 -
Spark RDD五大特性
学习rdd的特性最好是从官网和源码来进行学习,首先看下官网解释:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rddsResilient Distributed Datasets (RDDs) Spark revolves around t...原创 2020-03-12 16:43:02 · 2115 阅读 · 1 评论