spark简介

最新推荐文章于 2022-10-19 17:10:42 发布

我不是李寻欢

最新推荐文章于 2022-10-19 17:10:42 发布

阅读量281

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_39532946/article/details/77869724

版权

27 篇文章 1 订阅

订阅专栏


Apache Spark™ is a fast and general engine for large-scale data processing.
------------------------------------------------------------------------

简介：
spark是一个分布式并行数据处理框架，可以与Hadoop联合使用，增强Hadoop的性能。同时，Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。

saprk特点：

spark运行模式：

○ Local （用于测试、开发）
○ Standlone （独立集群模式）
○ Spark on Yarn （Spark在Yarn上）
○ Spark on Mesos （Spark在Mesos）

sprk数据处理流程：

spark中的RDD：

RDD的特点：

RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。
RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）
RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过应用程序中的集合来创建。
RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDDpartition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。（弹性）

RDD的计算类型：

spark容错基本概念：

每个RDD都会记录自己所依赖的父RDD，一旦出现某个RDD的某些partition丢失，可以通过并行计算迅速恢复

RDD的依赖又分为Narrow Dependent（窄依赖）和Wide Dependent（宽依赖）：

窄依赖：每个partition最多只能给一个RDD使用，由于没有多重依赖，所以在一个节点上可以一次性将partition处理完，且一旦数据发生丢失或者损坏可以迅速从上一个RDD恢复
宽依赖：每个partition可以给多个RDD使用，由于多重依赖，只有等到所有到达节点的数据处理完毕才能进行下一步处理，一旦发生数据丢失或者损
坏，则完蛋了，所以在这发生之前必须将上一次所有节点的数据进行物化（存储到磁盘上）处理，这样达到恢复。

关注

专栏目录