Spark
Austing_cai
这个作者很懒,什么都没留下…
展开
-
Spark学习(一)—— 论文翻译
Spark学习(一)—— 论文翻译================================弹性分布式数据集:基于内存集群计算的容错抽象摘要 我们提出了弹性分布式数据集(RDDs),一个让程序员在大型集群上以容错的方式执行基于内存计算的分布式内存抽象。RDDs是启发于两类用当前计算框架处理不高效的应用程序:迭代算法和交互式数据挖掘工具。这二者在内存中保存数据性能能翻译 2016-04-10 20:53:52 · 2526 阅读 · 2 评论 -
Spark源码走读(一) —— Spark应用提交流程
Spark应用是使用spark-submit脚本提交,脚本内容如下,可知该脚本把SparkSubmit类作为参数传给spark-class脚本 略去spark-class脚本上面的加载配置等步骤,发现这里使用launcher.Main启动SparkSubmit的执行从而启动应用。 SparkSubmit中的main函数,主要是解析参数,根据参数执行不同行为。 submit函数主要分两步: 1、为提原创 2017-10-14 22:20:17 · 320 阅读 · 0 评论 -
Spark源码走读(二) —— Job的提交
import org.apache.spark.{SparkConf, SparkContext}object SparkWordCount{ def main(args: Array[String]) { if (args.length == 0) { System.exit(1) } val conf = new SparkConf().setAppName原创 2017-10-20 21:54:55 · 329 阅读 · 0 评论 -
Spark源码走读(三) —— Stage的划分和提交
Stage的划分继续上节的分析。handleJobSubmitted的源码如下:private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func: (TaskContext, Iterator[_]) => _, partitions: Array[Int], callSite:原创 2017-10-22 23:06:52 · 318 阅读 · 0 评论