RDD是一个抽象类,操作RDD就像操作本地集合一样,降低编程难度。RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数)。RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)
RDD的map方法,是Executor中执行时,是一条一条的将数据拿出来处理。
创建方式:
1、通过外部存储的诗句进行创建 sc.textFile("path")
2、将Driver的scala集合通过并行化变成RDD。 sc.parallelize(List(x,x,x,x,x))
3、调用已存在的RDD进行转换得到新的RDD。(转换的特点:1.生成新的RDD 2.Lazy)
分区取决哪些因素?
1、如果是driver端的scala集合并行化转换成RDD,没指定分区,则rdd分区按app分配中指定的核数
2、如从hdfs读创建RDD,并且设置最小分区数量是1,那么rdd分区数即使输入切片的数据。若没设置,spark调用textFile时默认传入2,分区会大于等于切片数量。
RDD五大特点:
* - A list of partitions (一系列分区,分区有编号,有顺序的)
* - A function for computing each split (每一个切片都会有一个函数作业在上面用于对数据进行处理)
* - A list of dependencies on other RDDs (RDD和RDD之间存在依赖关系)
* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
(可选,key value类型的RDD才有RDD[(K,V)])如果是kv类型的RDD,会一个分区器,默认是hash-partitioned
* - Optionally, a list of preferred locations to compute each split on (e.g. block locatio