![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
hochoy
这个作者很懒,什么都没留下…
展开
-
Spark源码-Executor 源码解析
Executor 源码解析Executor 是干嘛的处理任务的执行器,是一个JVM进程 ,是一个以线程池实现的运行 Task 的进程。看一下官网和代码注释对 Executor 的说明官网介绍A process launched for an application on a worker node, that runs tasks and keeps data in memory o...原创 2020-04-27 14:27:12 · 470 阅读 · 0 评论 -
浅析Broadcast
浅析 Broadcast主要有三种对象 BroadcastManager、BroadcastFactory 和 BroadcastBroadcastManager 负责Broadcast的全局管理BroadcastFactory 负责创建或取消BroadcastBroadcast 为实际的一次广播操作BroadcastManager 是 BroadcastFactory 的封...原创 2020-04-15 17:40:09 · 319 阅读 · 0 评论 -
Spark checkpoint 详述
checkpoint 的使用和源码说明本文基于 spark2.4.4 版本进行分析,如有刊误望告之,求指教使用step1 设置checkpoint 目录sc.setCheckpointDir("hdfs://hadoop01:8020/tmp/hc")step2 调用 RDD#checkpoint()方法 val rdd1 = sc.parallelize(score,2)...原创 2020-04-15 16:16:24 · 465 阅读 · 0 评论 -
RDD 的缓存(persist)和检查点(Checkpoint)
RDD 的缓存(persist)和检查点(Checkpoint)RDD的缓存通过persist()或cache()方法可以标记一个要被持久化的RDD,一旦首次被触发,该RDD将会被保留在计算节点的内存中并重用。假设首先进行了RDD0→RDD1→RDD2的计算作业,那么计算结束时,RDD1就已经缓存在系统中了。在进行RDD0→RDD1→RDD3的计算作业时,由于RDD1已经缓存在系统中...原创 2020-04-15 16:36:21 · 624 阅读 · 0 评论 -
spark-submit简要说明
首先通过bin/spark-submit --help查看一下spark-submit命令的帮助说明:使用格式: ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<...原创 2018-05-30 10:49:53 · 2786 阅读 · 1 评论 -
Spark2.10中使用累加器、注意点以及实现自定义累加器
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。 val spark...转载 2018-07-15 22:38:18 · 204 阅读 · 0 评论 -
spark源码解读
SparkContext初始化操作 private val creationSite: CallSite = Utils.getCallSite() private[spark] val listenerBus = new LiveListenerBus(this) addedFiles/addedJars:用于存储每个静态文件/ jar的URL以及文件的本地时间戳 val spar...原创 2018-11-16 11:26:12 · 618 阅读 · 0 评论