3.RDD的创建

第一:RDD实战
第二:RDD的transformation和Action
-------------------------------------------
RDD.scala(reduce(),map())
sparkContext.scala(runJob())


RDD的操作类型3种:transformation(获得算子),action(执行操作),controller(控制算子)


lazy级别,编译器可以有时间优化
collect():收集结果到driver,变成数组,数组中存放的是Tuple会触发一个runJob
foreach():循环遍历每个元素,取出来当做新函数的参数
reduceByKey(_+_,1):第二个参数代表并行度,设置为1后,产生的结果为一个文件
shuffle和并行度没有任何关系
设置多少并行度就有多少partition,task代表了partition
partition数量的改变,是会影响了网络的开销

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值