一、一些对象
1.Driver Program:包含程序的main()方法,RDDs的定义和操作,它管理很多节点,我们称之为executors
2.SparkContext:Driver Program通过SparkContext对象访问Spark,SparkContext对象代表和一个集群的连接
3.在shell中SparkContext对象自动创建好了,就是sc,可以在shell中直接使用sc
二、RDDs(Resilient distributed dataset——弹性分布式数据集)
1.RDDs的介绍:
1)并行的分布在集群中
2)RDDs是Spark分发数据和计算的基础抽象类
3)一个RDD是不可改变的分布式集合对象
4)Spark中,所有的计算都是通过RDDs的创建、转换等操作完成的
5)一个RDD内部由许多==partitions(分片)==组成
分片:
每个分片包括一部分数据,partitions可在集群不同节点上计算
分片是Spark并行处理的单元,Spark会顺序的、并行的处理分片
2.RDDs的创建方法:
1)把一个已存在的集合传给SparkContext的parallelize()方法,可用来测试
val rdd=sc.parallelize(Array(1,2,2,4),4) ----第一个参数:待并行化处理的集合
2&