Spark之常用的RDD操作

最新推荐文章于 2023-08-01 17:10:52 发布

夏之奈

最新推荐文章于 2023-08-01 17:10:52 发布

阅读量365

点赞数

分类专栏：大数据文章标签： spark RDD pyspark

本文链接：https://blog.csdn.net/qq_38103371/article/details/89711774

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

给大家分享我常用的RDD操作方法。版本是spark-2.4.0，使用的python（不同的语言RDD的用法差不多）

一，创建

从本地文件获取

lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")

从HDFS中获取

lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")

从kafka中获取

from pyspark.streaming.kafka import KafkaUtils
brokers = "你的节点“
topic = ”topicname“
ssc = StreamingContext(sc, 30)
# 这个30 是执行频率，30秒一次
Streams = KafkaUtils.createDirectStream(ssc, [topic], kafkaParams={"metadata.broker.list": brokers})

从集合中获取

nums = [1,2,3,4,5]
rdd = sc.parallelize(nums)

二，转换

通过进来的数据，都是一些原始数据，我们需要通过一些特定的函数进行一些预处理。

filter(func)：基本用于一些过滤操作，筛选出满足函数func的元素，并返回一个新的数据集
map(func)：有状态的修改RDD的每个数据，将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()：应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)：应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合的方式，常见的有相加，或者拼接，也可以用于做比较判断等。