spark core之RDD简介

最新推荐文章于 2024-08-24 14:38:34 发布

小蜜蜂爱编程

最新推荐文章于 2024-08-24 14:38:34 发布

阅读量443

点赞数 5

分类专栏：大数据文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_42936727/article/details/136797250

版权

24 篇文章 0 订阅

订阅专栏

由于分布式计算通常需要以下功能：

分区控制；
shuffle控制
数据存储\序列化\发送
数据计算api
这些功能已经不能通过简单的python内置集合完成，除非你再自己写一套框架，需要一个统一的数据抽象来实现以上功能，因此有了RDD，它就是在集群中可以实现高度容错的一个计算对象。

RDD是resilient distributed dataset 弹性分布式数据集合，是spark中最基本的数据抽象，代表一个不可变、可分区、里面的数据可并行计算的集合。

# 定义一个三分区的rdd数据集合，这里的sc是sparkcontext
rdd = sc.parallelize([1, 2, 3, 4, 5, 6], 3)
# 将RDD的分区排布展现出来
rdd.glom().collect()

# 会对每一个分区上的数据都执行*10
rdd = sc.parallesize([1, 2, 3, 4, 5, 6], 3).map(lambda x : x * 10.glom().collect())

sc = SparkContext(conf = conf)
rdd1 = sc.textFile("../text")
rdd2 = rdd1.flatMap(lambda x : x.split(","))
rdd3 = rdd2.map(lambda x : (x, 1))

("hadoop", 1)
("python", 2)
("spark", 3)
("hadoop", 5)
("spark", 7)

这类RDD默认是hash分区规则，key相同的会被分到同一个区，如上面的hadoop和spark分别有两个数据，但我们可以通过人为指定分区器，让hadoop和python一个分区（用rdd.partitionBy()方法），这个特性是只对k-v型rdd生效，单值的rdd没必要用

关注

专栏目录