Driver program:
- 包含程序的main()方法,RDDs的定义和操作。
- 管理很多节点,称作为executors。如下图展示,
SparkContext:
- Driver program通过SparkContext对象访问Spark。
- SparkContext对象表示和一个集群的链接。
- 在Shell中SparkContext自动创建,即sc。
RDDs:
- Resilient distributed datasets (弹性分布式数据集,简写RDDs)。
- RDDs并行的分布在整个集群中。
- RDDs是Spark分布数据和计算的基础抽象类。
- 一个RDD是一个不可改变的分布式集合对象。
- Spark中,所有计算是通过RDDs的创建,转换,操作完成的。
- 一个RDD内部有许多partitions(分片)组成。每个分片包含一部分数据,partitions可在集群不同节点上计算;分片是Spark并行处理的单元,spark顺序的,并行的处理分片。
RDDs的创建方法:
- 把一个存在的集合传给SparkContext的parallelize()方法,测试用val rdd=sc.parallelize(Array(1,2,2,4),4),第一个参数:待并行化处理的集合,第二个参数