Spark API

最新推荐文章于 2024-05-24 17:56:33 发布

TT15751097576

最新推荐文章于 2024-05-24 17:56:33 发布

阅读量384

点赞数

分类专栏：专项Spark2.0 文章标签： Spark API

本文链接：https://blog.csdn.net/tt15751097576/article/details/103116106

版权

本文详细介绍了Spark API的核心组件Spark Context和RDD。Spark Context作为Spark库的入口，连接到Spark集群。RDD是Spark的基石，表示不可变的分布式数据集合，支持转换和行动操作。内容涵盖了RDD的创建、转换、行动操作，以及缓存和血统关系图的概念，强调了Spark的惰性计算策略。

摘要由CSDN通过智能技术生成

Spark API主要有两个抽象部件组成：Spark Context和RDD，应用程序通过这两个部件和Spark进行交互，连接到Spark集群并使用相关资源。

1.Spark Context

是定义在Spark库中的一个类，作为Spark库的入口，包含应用程序 main( ) 方法的Driver program通过Spark Context对象访问Spark，因为Spark Context对象表示与Spark集群的一个连接。每个Spark应用都有且只有一个Spark Context类实例，如果需要新的实例，必须先让当前实例失活。

（在Shell设立了中Spark Context已经自动创建好，就是sc）

val sc = new SparkContext()

2.RDD
RDD基础概念

弹性分布式数据集
并行分布在整个集群中

把指定路径下的文本文件加载到linex这个RDD中，这个lines就是一个RDD，代表就是整个文本文件

val lines = new sc.textFile("home.haha.helloSpark.txt")

即使这个文件超大，分片存储在多台机器上，操作时可以直接使用RDD对整个文件进行操作。

RDD时Spark分发数据和计算的基础抽象类

例如：lines.count()

在 . count()的函数操作时在RDD数据集上的，而不是对某以具体分片

一个RDD是不可以改变的分布式数据集合对象

就lines来说，如果我们对其待变的源文件进行了增删改查操作，则相当于生成了一个新的RDD，来存放修改后的数据集

Spark中所有的计算都是通过RDD的创建，转换，操作完成的
一个RDD内部由许多 partition（分片）组成

partitions：

每个分片包括一部分数据，分片可在集群不同节点上计算

分片时Spark并行处理的单元，Spark顺序的，并行处理分片

RDD创建方法

1.把一个存在的集合传给Spark Context的parallize（）方法（一般测试的时候使用这个方法）

val rdd = sc.parallelize(Array(1,2,2,1),4)
//参数1：待并行化处理的集合；参数2 ：分区个数 4
rdd.count()//参看个数
rdd.foreach(print)//查看RDD所有对象
//注意：每次foreach出来数值顺序会不一样，应为数据存储与4个分区，从哪个分出读数值是随机的。

2.加载外部数据集

//用textFile方法加载
//该方法返回一个RDD，该RDD代表的数据集每个元素都是一个字符串，每个字符串代表输入文件中的一行
val rddText = sc.textFile("helloSpark.txt")
//用wholeTextfiles方法加载
//这个方法读取目录下的文本文件，然后返回一个KeyValue对RDD（每一个键值对对应一个文件，key为文件路径，value为文件内容）
val rddw = sc.wholeTextFile