Spark Rdd算子

最新推荐文章于 2024-07-16 22:38:10 发布

晚春初夏的你

最新推荐文章于 2024-07-16 22:38:10 发布

阅读量363

点赞数 1

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_42834505/article/details/108080666

版权

这篇博客深入探讨了Spark的RDD操作，包括如何创建Spark Context和弹性分布式数据集(RDD)。详细介绍了各种转换算子，如map、filter、flatMap、mapPartitions等，以及动作算子，如count、collect、take等。同时，还涵盖了reduceByKey、groupByKey、repartition、coalesce、sample、sortBy等关键操作。

摘要由CSDN通过智能技术生成

s（1）创建spark context

val conf: SparkConf = new SparkConf().setAppName("transactionRDD").setMaster("local[2]")
val sc = new SparkContext(conf)

（2）创建rdd：弹性分布式数据集

--使用内存集合创建
创建rdd的方式,不设置分区数，默认分区数是核数：local[num]
val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5, 6),3)
val rdd2: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7),4)

--使用本地文件创建RDD(单个文件)
val rdd3: RDD[String] = sc.textFile("file:///E:\\MyEclipse\\review\\spark\\fuxi\\data\\文件1")

----使用本地文件创建RDD(批量文件)
val rdd3: RDD[String] = sc.wholeTextFile("file:///E:\\MyEclipse\\review\\spark\\fuxi\\data")
返回结果是:key和value形式，key是文件名，value是文件内容

--使用HDFS文件创建RDD
val rdd3: RDD[String] = sc.textFile("hdfs:///192.168.190.151:9000/opt/data/hello.txt")

转换算子（map）

//创建一个spark context
val conf: SparkConf = new SparkConf().setAppName("transactionRDD").setMaster("local[2]")
val sc = new SparkContext(conf)
  
//创建rdd
private val a: RDD[Int] = sc.parallelize(1 to 10)

//将a的每一个元素全都乘2，形成一个新的rdd
val b: RDD[Int] = a.map(x => x * 2)

//map将一个普通的rdd变为pairRDD
val c: RDD[(Int, Int)] = a.map(x => (x, 1))

//输出
b.collect().foreach(println)
2
4
6
8
10
12
14
16
18
20

c.collect().foreach(println)
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(7,1)
(8,1)
(9,1)
(10,1)

转换算子（filter）

val a: RDD[Int] = sc.parallelize(1 to 10)

//过滤出a中的偶数，形成新的算子b
val b: RDD[Int] = a.filter(x => x % 2 == 0)

b.collect().foreach(println)
2
4
6
8
10

转换算子(flaterMap)

flatMap:该算子由两部分组成，先是Map()就是遍历对每个元素进行操作，然后flatten()即展开

wordcount:单词统计举例
val rdd3: RDD[String] = sc.textFile("file:///E:\\hello.txt")

hello.txt文件内容：
hello java
hello china
hello python
hello mysql
good good study

rdd3.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>x+y).foreach(println)

原理：先是拿到rdd的每一行，然后按空格进行拆分split()，成为一个数组，然后拿到该数组，将数组的值转变为（值，1）元组的这种形式，最后展开flatMap()，例如(hello,1),(java,1),(hello,1),然后通过reduceByKey()对相同key的值进行相加，最终输出

最终结果：
(python,2)
(up,1)
(day,2)
(good,4)
(mysql,2)
(china,2)
(hello,8)
(study,2)
(java,2)

转换算子（mapPartitions）

mapPartitions:mapPartitions对每一个分区的数据进行操作,可以先用mapPartitions拿到每一个分区的数据，再用map对当前分区的每一个元素进行操作

val a: RDD[Int] = sc.parallelize(

最低0.47元/天解锁文章

晚春初夏的你

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录