Spark之核心---RDDs（2）

最新推荐文章于 2018-07-17 16:27:15 发布

coder_Gray

最新推荐文章于 2018-07-17 16:27:15 发布

阅读量514

点赞数

分类专栏：大数据分布式应用文章标签： spark

本文链接：https://blog.csdn.net/coder_Gray/article/details/77197007

版权

大数据同时被 2 个专栏收录

10 篇文章 3 订阅

订阅专栏

分布式应用

8 篇文章 0 订阅

订阅专栏

前言

在第一章，已经介绍过了RDDs的基本概念，创建方法和特性。那么在本章将介绍RDD的基本操作方法。如果没看过第一篇的点击链接：Spark之核心—RDDs（1）

RDD基本操作方法之Transformation

顾名思义，Transformation时转换的意思，在RDD中的含义就是从之前的RDD构建一个新的RDD，像map(),filter()等。下面将具体介绍这些操作方法：

map()：想必熟悉编程的朋友对这个函数并不陌生，是映射的意思，生成的结果将是一个键值对。举个例子val lines2 = lines.map(word => (word,1))
其中:

scala> val lines = sc.textFile("../testfile/test")
scala> lines.foreach(println)
Hello Spark!
I love xyj!
I love zyh! 
Hello World!

lines的内容如上所示，lines2是对lines这个RDD的操作结果的一个新RDD，我们来看一下结果：

scala> lines2.foreach(println)
(I love xyj!,1)
(I love zyh! ,1)
(Hello Spark!,1)
(Hello World!,1)
即把行数据映射成键值对的形式，由于没有split分词，所以每行就当作一个单词吧。

filter()：返回值包含满足filter函数元素的新RDD，在前一篇已经应用过。
flatmap()：对每个输入元素，输出多个输出元素，将所有的存在一个数组中。更形象的理解为将多个RDD压扁的意思，返回一个新的RDD。例如：[1,2,3,4],[5,6,7,8]，flatmap的结果为：[1,2,3,4,5,6,7,8]
集合运算包括去重，交并集，等各种操作

RDD基本操作方法之Action

Action：最终计算出一个结果，形式如count(),save,driver program或者存在文件系统中。

reduce()：累加，计数，其他类型的聚集操作。
例如：

val rdd = sc.parallelize(Array(1,2,3,3))
rdd.reduce((x,y) => x+y)
结果为： 1+2+3+3 = 10

collect()：遍历整个RDD，向driver pogram返回RDD的内容。不过利用collect的时候要注意内存问题，当数据量不是很大时，利用collect可以，但是有大量数据容量超过内存时，就要利用saveAsTextFile()等action操作。
take （n）：返回RDD的n个元素（同时尝试访问最少的分区），是随机无序的。
top（）：比较器
foreach（）：输出RDD内容，不返回到本地，配合print或者其他输出函数打印出数据，方便测试使用。

key-value对型RDDs的操作

由于key-value型的RDD在spark中应用广泛，所以这部分单独拿出来总结一下。

创建：利用map()函数创建。
操作：
1.combineByKey（createCombiner，mergeValue，mergeCombiners，partitioner）：遍历所有的分区（partitions），如果是新的key值，就调用createCombiner，如果已经遍历过这个key值，就调用vergeValue，之后再合计整合每个分区得到的结果汇总mergeCombiners。这个函数是最为常见的基于key的聚合函数，返回类型可以与输入类型不一样。下面举个例子，求两个人的成绩总和：

（jake，80.0）
（jake，90.0）
（jake，85.0）
（mike，85.0）
（mike，92.0）
（mike，90.0）

 以上是原始数据，下面定义函数：
 combineByKey( score => (1,score); (c1: (Int,Double), newScore) => (c1._1,c1._2+newScore)); (c1:(Int,Double), c2:(Int,Double) => (c1._1+c2._1,c1._2+c2._2))
 其中score 为value值，（1,score）中的1表示第一次出现，记为1.Int表示几门课。

2.reduceByKey(func)

eg:{(1,2),(3,4),(3,6)}
rdd.reduceByKey((x,y) => x+y)得到结果：
{(1,2),(3,10)}

3.groupByKey()：相同key的分到一个组。
4.mapValues(func)：对每个key中的每个value值进行相同操作。
5.flatMapValues：符号化的时候使用。
6.keys(),values()返回key和value值。
7.sortByKey()：按照key排序返回RDD

coder_Gray

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark之核心---RDDs（2）

前言在第一章，已经介绍过了RDDs的基本概念，创建方法和特性。那么在本章将介绍RDD的基本操作方法。如果没看过第一篇的点击链接：Spark之核心—RDDs（1）RDD基本操作方法之Transformation顾名思义，Transformation时转换的意思，在RDD中的含义就是从之前的RDD构建一个新的RDD，像map(),filter()等。下面将具体介绍这些操作方法：map()：想必熟悉编程
复制链接

扫一扫