Spark WordCount执行流程以及相关源码

RDD是一个抽象类,操作RDD就像操作本地集合一样,降低编程难度。RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数)。RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)

RDD的map方法,是Executor中执行时,是一条一条的将数据拿出来处理。

创建方式:

1、通过外部存储的诗句进行创建 sc.textFile("path")

2、将Driver的scala集合通过并行化变成RDD。 sc.parallelize(List(x,x,x,x,x))

3、调用已存在的RDD进行转换得到新的RDD。(转换的特点:1.生成新的RDD 2.Lazy

分区取决哪些因素?

1、如果是driver端的scala集合并行化转换成RDD,没指定分区,则rdd分区按app分配中指定的核数

2、如从hdfs读创建RDD,并且设置最小分区数量是1,那么rdd分区数即使输入切片的数据。若没设置,spark调用textFile时默认传入2,分区会大于等于切片数量。

RDD五大特点: 

 *  - A list of partitions  (一系列分区,分区有编号,有顺序的)
 *  - A function for computing each split  (每一个切片都会有一个函数作业在上面用于对数据进行处理)
 *  - A list of dependencies on other RDDs  (RDD和RDD之间存在依赖关系)
 *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
     (可选,key value类型的RDD才有RDD[(K,V)])如果是kv类型的RDD,会一个分区器,默认是hash-partitioned
 *  - Optionally, a list of preferred locations to compute each split on (e.g. block locatio

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值