1、rdd 简介
什么是rdd?从官网和一些技术博客上我们都可以看到这样的介绍
RDD叫做弹性分布式数据集(resilient distributed dataset) ,是Spark中最基本的数据抽象,它是跨集群节点分区的元素集合,可以并行操作。
官网举例如下:
## 构建包含应用信息的SparkConf对象
conf = SparkConf().setAppName(appName).setMaster(master)
## 创建SparkContext对象,Spark通过它访问集群
sc = SparkContext(conf=conf)
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
如上所示,集合data的元素被复制并形成可以并行化操作的分布式数据集,即创建了一个包含数字1到5的并行化集合。
因此可以简单理解为RDD为对输入集合的一种封装,如java使用对象进行封装,Spark将输入数据封装为分布式集合(RDD),方便数据进行分布式计算。 如下图所示: