数据创造价值

不断的用事实验证理论。

3.RDD的创建
第一:RDD实战
第二:RDD的transformation和Action
-------------------------------------------
RDD.scala(reduce(),map())
sparkContext.scala(runJob())


RDD的操作类型3种:transformation(获得算子),action(执行操作),controller(控制算子)


lazy级别,编译器可以有时间优化
collect():收集结果到driver,变成数组,数组中存放的是Tuple会触发一个runJob
foreach():循环遍历每个元素,取出来当做新函数的参数
reduceByKey(_+_,1):第二个参数代表并行度,设置为1后,产生的结果为一个文件
shuffle和并行度没有任何关系
设置多少并行度就有多少partition,task代表了partition
partition数量的改变,是会影响了网络的开销

阅读更多
个人分类: spark源码之core解析
想对作者说点什么? 我来说一句

sql存储过程的创建

2009年11月13日 482B 下载

fan工具fan工具fan工具

2011年03月27日 54B 下载

创建XML文件的源代码资源

2010年07月02日 68KB 下载

2003系统创建VPN

2010年12月14日 12.9MB 下载

虚拟专用网的创建与实现

2009年08月01日 17.84MB 下载

没有更多推荐了,返回首页

不良信息举报

3.RDD的创建

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭