Spark Low-Level API RDD学习笔记

ASKED_2019

已于 2022-03-04 10:28:43 修改

阅读量850

点赞数

分类专栏：大数据文章标签： spark 学习 big data

于 2022-02-22 20:10:43 首次发布

本文链接：https://blog.csdn.net/weixin_42223090/article/details/122587865

版权

大数据专栏收录该内容

11 篇文章 1 订阅

订阅专栏

什么是RDDs

英文全称Resilient Distributed Datasets,翻译弹性分布式数据集
Spark The Definitive Guide中是这么描述的：RDD represents an immutable, partitioned collection of records that can be operated on in parallel，个人的理解，rdd就是一类分布式对象集合，其中每个records就是一个对象，我们可以对这些对象进行分布式的运算。

1.RDDs类型

对于用户来说，我们只需要关注两种类型的RDDs，generic RDD和key-value RDD。
RDD 5个方面的特性表征
1.A list of Paritions
2.A function for cumputing each split
3.A list of dependencies on other RDDs
4.对于key-value类型的RDD可以选择Partitioner，个人理解是用来定义hash规则的
5.

2.RDD创建

1.将dataframe转化为rdd, 此时转化得到的是Row类型的RDD

spark.range(10).rdd
spark.range(10).toDF("id").rdd.map(lambda row:row[0])

# 将rdd转化为dataframe
spark.range(10).rdd.toDF("id")

如果想实现其他类型可以使用flatMap：

df.select("").rdd.flatMap(lambda x:x)

通过flatMap操作，可以将rdd基本元素转化为类似list的格式
dataframe：
在这里插入图片描述
输出：

2.基于本地变量创建rdd

myCollection = "Spark The Definitive Guide : Big Data Processing Made Simple"\
.split(" ")
words = spark.sparkContext.parallelize(myCollection, 2) # 这里人为的划分了2个partition

# name rdd  to show up in the Spark UI according to a given name
words.setName("mywords")
words.name
# 显示 mywords

3.基于数据源

# 逐行的读取文本文件
spark.sparkContext.textFile("/some/textFiles")

3.一些RDD的常规操作

3.1 Tranformations

# filter
def startsWithS(individual):
   return individual.startswith("S")
rds.filter(lambda word: startsWithsS(word)).collect()

Map
Map是以元素粒度的数据转化:给定映射函数 f，map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数，也可以是匿名函数，必须注意的是它的形参类型必须与 RDD 的元素类型保持一致，而输出类型则任由开发者自行决定

# 匿名函数实现
# 这个例子输出是word，输出是一个tuple(word，word的第一个元素, word是否以S开头)
rds.map(lambda word:(word, word[0], word.startsWithS(word)))

# 命名函数

3.2 actions

spark rdd仍然是保持惰性执行的机制，actions方法可以让spark程序进行执行输出等操作

# reduce
spark.sparkContext.parallelize(range(1, 21)).reduce(lambda x,y:x+y) # 210

def wordLengthReducer(leftWord, rightWord):
	if len(leftWord) > len(rightWord):
		return leftWord
	else:
		return rightWord
words.reduce(wordLengthReducer)

rdd逐步读取到driver端

#toLocalIterator
for tmp in rdd.toLocalIterator():
    some_operator(tmp)

3.3 checkpointing

把rrd存到硬盘上，后面依赖此rdd的操作就可以直接在硬盘上而不是去追溯到rdd的原始数据源。这里的checkpoint有点像在硬盘里进行缓存。

spark.sparkContext.setCheckpointDir("/some/path/for/checkpointing")
words.checkpoint()

3.4 pipe

通过pipe方法我们可以使用系统命令去操作rdd。
其中RDD是按照分区进行输入，每个分区的每一行由一个换行符间隔。
pipe是实现的底层函数，其他的方法是基于pipe进行的。

# pipe
words.pipe("wc -l").collect()


# mapPartitions
# 把partition作为参数进行程序定义
words.mapPartitions(lambda part: [1]).sum() # 2

# mapPartitionsWithIndex
# 可以把partion的index和partition Iterator作为参数进行程序定义
def indexedFunc(partitionIndex, withinPartIterator):
    return ["partition: {} => {}".format(partitionIndex,
             x) for x in withinPartIterator]
words.mapPartitionsWithIndex(indexedFunc).collect()

思维导图
在这里插入图片描述

Reference：

ASKED_2019

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark Low-Level API RDD学习笔记

1 什么是RDDs英文全称Resilient Distributed Datasets,翻译弹性分布式数据集Spark The Definitive Guide中是这么描述的：RDD represents an immutable, partitioned collection of records that can be operated on in parallel，个人的理解，rdd就是一类分布式对象集合，其中每个records就是一个对象，我们可以对这些对象进行分布式的运算。RDDs类型对于
复制链接

扫一扫