Spark RDD与运行模式详解

幻觉指北针

于 2024-06-21 00:17:21 发布

阅读量270

点赞数 5

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/m0_50652491/article/details/139845372

版权

在Apache Spark中，RDD（Resilient Distributed Dataset）是一种核心的数据抽象，代表弹性分布式数据集。它具备以下特点：

从对象集合创建：使用parallelize()或makeRDD()方法将内存中的对象集合转换为RDD。
```
val rdd = sc.parallelize(List(1, 2, 3, 4))
```

从外部存储创建：通过textFile()等方法读取外部存储系统中的数据并创建RDD。

val localRdd = sc.textFile("file:///path/to/local/file")
val hadoopRdd = sc.textFile("hdfs://namenode:port/path/to/hdfs/file")

Spark支持多种运行模式，适应不同的计算需求和环境。

适用于开发和测试，通过多线程模拟分布式计算环境。

使用Spark自带的资源调度系统，支持以下两种提交方式：

利用YARN作为资源管理器，Spark作为应用程序运行在其上。

使用spark-submit工具将应用程序提交至Spark集群，支持多种参数配置，如--master、--deploy-mode等。

Spark Shell是一个交互式环境，允许使用Scala或Python直接编写和测试Spark代码。

Standalone模式启动：

spark-shell --master spark://master-node:port

Spark的RDD为分布式数据处理提供了强大的抽象能力，而其灵活的运行模式使其能够适应从单机到大规模集群的多种计算环境。通过spark-submit和Spark Shell工具，用户可以方便地提交和管理Spark应用程序。

关注