介绍:
spark是主从结构,主节点叫master,从节点叫worker
spark的任务提交到master后,master再把任务分配给worker,worker再启动相应的excutor进程执行程序
spark主要处理的是RDD,而RDD是一个分布式数据集合。
1、启动伪分布环境
cd sbin
./start-all.sh
2、通过spark的bin下的spark-shell客户端可以编写spark的程序。
启动spark-shell
cd bin
./spark-shell --master spark://bidata111:7077
3、编写一个spark程序
//sc 代表的spark context 使用parallelize接受一个List或者是一个Array来生成一个RDD
//也可以指定它的分区
var rdd1=sc.parallelize(List(1,2,3,4,5,6))
var rdd1=sc.parallelize(List(1,2,3,4,5,6),2)
RDD的特性:
1)由分区组成
2)由算子处理集合中的数据
算子又分为俩种算子:
transformation:延时计算
Action:触发计算
3)RDD彼此具有依赖关系
根据RDD之间的依赖关系,可以分成
*)窄依赖
*)宽依赖
4)可以自定一分区