spark运行流程

最新推荐文章于 2024-01-02 10:26:44 发布

daladalabao

最新推荐文章于 2024-01-02 10:26:44 发布

阅读量899

点赞数 1

分类专栏： spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_45450889/article/details/131451098

版权

8 篇文章 0 订阅

订阅专栏

Spark的运行流程可以分为以下几个步骤：

创建SparkSession：在开始使用Spark之前，需要创建一个SparkSession对象。SparkSession是与Spark集群连接的入口点，可以用它来创建DataFrame、执行SQL查询等操作。
加载数据：通过SparkSession加载数据源，可以从文件系统（如HDFS、本地文件系统）、数据库、实时消息队列等读取数据。
转换数据：通过转换操作对加载的数据进行处理和转换。Spark提供了丰富的转换操作，如映射、过滤、排序、聚合等，可以将数据进行清洗、筛选和加工。
缓存数据：可选步骤，如果需要多次使用某个数据集，可以将其缓存到内存中，以便反复访问，加快后续计算速度。
执行计算：Spark执行计算时采用惰性求值的方式，即不会立即执行转换操作，而是记录下转换操作的逻辑。只有在遇到行动操作时，Spark才真正触发计算并完成数据处理。
行动操作：行动操作是Spark计算流程中的最后一步，其作用是触发Spark的计算，并将结果返回给驱动程序或输出到外部存储介质。
关闭SparkSession：当所有的计算任务完成后，需要关闭SparkSession对象，释放资源。

注意：在Spark的分布式计算中，任务是以RDD（Resilient Distributed Datasets）为单位进行划分和执行的。Spark会将数据集划分成多个分区，在每个分区上进行并行计算，最后通过shuffle等操作将结果合并。这种分区计算模式能够实现高效的数据处理和分布式计算。

关注