3.RDD的创建

原创 2016年06月01日 08:46:59
第一:RDD实战
第二:RDD的transformation和Action
-------------------------------------------
RDD.scala(reduce(),map())
sparkContext.scala(runJob())


RDD的操作类型3种:transformation(获得算子),action(执行操作),controller(控制算子)


lazy级别,编译器可以有时间优化
collect():收集结果到driver,变成数组,数组中存放的是Tuple会触发一个runJob
foreach():循环遍历每个元素,取出来当做新函数的参数
reduceByKey(_+_,1):第二个参数代表并行度,设置为1后,产生的结果为一个文件
shuffle和并行度没有任何关系
设置多少并行度就有多少partition,task代表了partition
partition数量的改变,是会影响了网络的开销

相关文章推荐

Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup

关键字:Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookup aggregate def aggregate[U](zeroValue: U)...

【Spark】RDD操作详解3——键值型Transformation算子

Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,...

Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

关键字:Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocally groupByKey def groupByKey(): RDD...

Spark RDD使用详解3--Value型Transformation算子

处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)...

Spark学习之键值对(pair RDD)操作(3)

Spark学习之键值对(pair RDD)操作(3)1. 我们通常从一个RDD中提取某些字段(如代表事件时间、用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键。2. 创建pa...

Spark PG3. RDD 操作一 基础 ,放入方法,闭包,输出元素, 使用 Key-Value 工作

RDD 操作一 基础 ,放入方法,闭包,输出元素,使用 Key-Value 工作 原文地址: http://spark.apache.org/docs/latest/programming-gu...

动手实战创建RDD的三种方式

1.通过已经存在的scala集合2.通过hdfs,hbase等 从 hadoop中的hdfs读取数据。 toDebugString可以查看RDD创建的过程 1.首先要从hadoop中...

RDD创建方式(集合,本地,HDFS)

1.RDD创建的几个方式 2.RDD创建实战 3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源 通过Transformation来对RDD进行各种算子的转换,实现算法 R...

Spark RDD 创建

Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从...

Spark核心编程:创建RDD(集合、本地文件、HDFS文件)

Spark核心编程:创建RDD(集合、本地文件、HDFS文件)
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:3.RDD的创建
举报原因:
原因补充:

(最多只允许输入30个字)