Spark学习笔记（一）：Spark简介和RDD

最新推荐文章于 2024-07-22 14:10:58 发布

qianbing11

最新推荐文章于 2024-07-22 14:10:58 发布

阅读量310

点赞数

分类专栏：大数据文章标签：大数据 spark hadoop rdd

本文链接：https://blog.csdn.net/qianbing11/article/details/82904547

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言：这是Spark理论的学习笔记，代码和操作极少，请自行熟悉代码。这篇幅会越来越长，并且不断深入，没什么意外的话笔者会在空闲时候慢慢进行更新。如果有错误的地方，请大佬指出让我改进，感激不尽！

1.Spark概述

1.1简介

Spark是一种快速、通用、可扩展的大数据分析引擎，是基于内存计算的大数据分布式计算框架。基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

1.2它的特点

1.快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。

2.易用3.通用4.兼容性 ......安装，搭建集群这些不是本文的重点这里不多介绍 - 直接开干！

2.RDD(弹性分布式数据集)

spark编程离不开rdd，那么什么是rdd呢？它为什么出现呢？

首先来看看它出现的原因：

在hadoop流行的时候，大家使用mapreduce来分布式地进行分数据处理。熟悉mr变成原理的话就知道，它在map结束阶段把结果溢出到磁盘，Reduce操作后把结果也输出到磁盘。这注定存在IO和网络传输这些数据的开销，使得其效率降低。如若进行一些迭代算法，或者交互式数据挖掘，反复的磁盘操作带来巨大的开销。

所以RDD出现了，它很大成都解决了这个问题，它是一个分布式的内存抽象，一个高度受限（只读）的共享内存模型，让我们详细的来了解它。

我们来看看官方的解释：

RDD是弹性分布式数据集。它是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

还有RDD官方的5个特点(下面是我扩展的解释)：

1）a list of partitions : 一组分片（Partition）。

对于RDD来说，每个分片都会被一个计算任务处理。分片有可能存储在集群的不同机器中用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

2）a function for computing each split : 一个作用在所有分片的方法

方法执行对象是每一个分片，RDD要求其抽象类所有子类实现compute的函数来达到这个目的。

3）a list of dependencies on other RDDs : 依赖于其他RDD

RDD间存在依赖关系，对RDD的每次转换操作会生成新的RDD，他们类似于流水线一般前后依赖，在部分分区丢失数据时，可以通过依赖关系重新计算。我们称这依赖为血统，下文会再介绍。

4）Optionally,a Partitioner for Key-value RDDs : 对于key - value 形式，有一个分片的规则方法

RDD内部存储的是k-v 形式的数据时，分片函数才会有值，而其他类型的RDD的Parititioner的值是None。该属性决定了自身的分片数量，也决定了父RDD 在 Shuffle过程输出的分片数。

5）Optionally, a list of preferred locations to compute each split on : 可选地,有首选地点计算每个分片

按照“移动数据不如移动计算”的理念，Spark进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

从上面的介绍，你大概知道了RDD是个什么东西，当然RDD作为spark的基础远不止这些，下面慢慢介绍！

2.1RDD的抽象

1）RDD是只读的、分区记录的集合。

2）RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

3）RDD不需要物化。RDD含有如何从其他RDD衍生（即计算）出本RDD的相关信息（即Lineage），据此可以从物理存储的数据计算出相应的RDD分区。

2.RDD的transformation和action

对RDD的操作有transformation(转换)和action(执行)两种

所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住应用转换动作。只有当发生一个action动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。

为什么RDD是弹性的？这大概是初学者最难明白的一个词了。下面这些特性都表明它的弹性

3.基于血统(Lineage)的高效容错:

1）MapReduce及其相关模型的优势在于自动容错、位置感知性调度和可伸缩性，rdd保持了这些优点。其中最难实现的就是容错性。容错性的实现一般有数据检查点和记录数据的更新这两种。

2）RDD只支持粗粒度的转换(即在大量记录上执行的单个操作)，因为这个特点RDD选择记录更新的方式。再看看前文我对官方提供的第三点特点的解释：RDD间存在依赖关系，对RDD的每次转换操作会生成新的RDD，他们类似于流水线一般前后依赖，在部分分区丢失数据时，可以通过依赖关系重新计算。这使得RDD不需要存放真实的数据，它里面存储的是如何通过父RDD获得自身的方式。对RDD使用toDebugString可以看到它的血统。

这里必须引入一下宽依赖和窄依赖的概念:

来上一张经典的图

窄依赖我们形象的比喻为独生子女(每一个父RDD的Partition最多被子RDD的一个Partition使用)

宽依赖我们形象的比喻为多个孩子(多个子RDD的Partition会依赖同一个父RDD的Partition)

这个概念在后文的文章提到的stage就是以此划分的

4.RDD的缓存机制:

rdd可以使用persist方法或cache方法将计算结果缓存，便于重用，这也是RDD持久化的一部分。

这两者是有区别的，spark支持多种缓存级别，而从源码来看cache()调用的是 MEMORY_ONLY

(仅在内存中)，他底层使用的是persist方法，二persist可以指定多种存储级别。

另外，RDD在内存不够用时也会自动的写入磁盘中，这些机制让RDD十分灵活。

值得一提RDD的persist或cache是transformation动作，遇到action才会真正执行

5.checkpoint

1）RDD的Lineage或许会很长，比如执行了100次转换，若果这时候数据丢失，恢复起来可能会很耗时间。所以这时候我们可以通过checkpoint把处理到某个程度的数据存到安全的地方(hdfs就很全)，

这时候前面的RDD就不再需要前面的依赖了，通过RDD中的dependencies_判断是否做过 ck。(dependencies_ 用来存放checkpoint后的结果的，如为null，则就判断没checkpoint)

2）如果让你做checkpoint会选择在哪呢？

显然我们尽量在宽依赖的操作下使用checkpoint。窄依赖是线性的，如果一个patition数据丢失，可以直接通过之前的分片计算得来，而宽依赖要等前面多条线性的数据全部处理完毕再执行shuffle，这时候丢失数据，那么就要面临全部重新计算了。

从以上特点是不是觉得RDD像个软体弹球一般，又灵活又有弹性呢

6.再来看看有向无环图(DAG)

DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。

以上是RDD中大部分基础知识，笔者刚刚入门，只有日后在下面补充更多的东西

1.RDD里面到底存了什么

RDD里面并没有存储真正的数据信息，它存储的是上一代RDD通过什么操作获取到了自己，还有一些数据类型，分片方法等。那么它的数据到底从何而来？

其实它是有存储数据的来源的，在RDD血统的顶层，初代RDD，它不依赖任何RDD，因为它就是依赖的开始。它存储了任务所需的数据的分区信息，以及如何读取这些分区。而数据的读取发生在task中，只有任务分发到了Executor上运行了，这时候才开始读取。

Spark中RDD的接口

qianbing11

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark学习笔记（一）：Spark简介和RDD

前言：这是Spark理论的学习笔记，代码和操作极少，请自行熟悉代码。这篇幅会越来越长，并且不断深入，没什么意外的话笔者会在空闲时候慢慢进行更新。如果有错误的地方，请大佬指出让我改进，感激不尽！1.Spark概述1.1简介Spark是一种快速、通用、可扩展的大数据分析引擎，是基于内存计算的大数据分布式计算框架。基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸...
复制链接

扫一扫