大数据知识体系

最新推荐文章于 2024-09-16 15:00:00 发布

秉寒-CHO

最新推荐文章于 2024-09-16 15:00:00 发布

阅读量5.2k

点赞数 3

分类专栏： Hadoop Spark

本文链接：https://blog.csdn.net/haohaixingyun/article/details/53148705

版权

Spark 同时被 2 个专栏收录

54 篇文章 0 订阅

订阅专栏

Hadoop

44 篇文章 0 订阅

订阅专栏

整个大数据处理的体系，按我的理解可以分为两个部分，一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是HadoopDFS，其他还有Ceph和Swift。分布式计算框架主流是MapReduce，Storm和Spark。

首先说分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象，把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是，把文件分成一个个block，每个block都有一定量的副本存储在不同的节点上，默认数量是3个，这保证了分布式存储的数据的稳定性。

HDFS的架构有NameNode、SecondaryNameNode、DataNode。NameNode节点主要负责客户端传来的读写请求，保存文件的metadata。SecondaryNameNode负责帮助NameNode合并editlog。DataNode负责储存Block，向NameNode汇报block信息、发送heartbeat。

HDFS写入文件的时候：客户端通过RPC向NN调用create()方法，NN检查文件是否存在，不存在并且有权限的话就会创建一个新文件，向客户端返回一个FSDataOutputStream，用于写数据。

HDFS读文件的时候，客户端通过RPC向NN调用open()方法，NN获得每个数据块的位置信息，返回客户端FSDataInputstream，客户端调用其read()方法读取数据块。

分布式计算框架中最流行的是MapReduce。它把并行计算、容错等细节问题封装到库里，程序员只需要编写map和reduce函数就可以了。这种模型的灵感来自函数式编程中的map和reduce原语。Map函数接受KV值，输出KV值，reduce函数接收KEY和相同key构成的value的集合的迭代器，再输出KV值。

整个执行过程是：用户提交job给调度系统，每个job包含一系列task，调度系统将这些任务调度到集群中多台可用的机器上。

开始执行后，数据被分割成M个数据片段集合，再调用map函数，之后被分区函数将结果分成R个不同分区，之后执行Reduce函数。具体就是：

1、输入文件分成M个数据片段，每个片段大小是HDFS的block size，程序副本也被创建到集群中。

2、这些程序的副本有一个master，master负责分配任务给其他空闲的worker。

3、分配了map任务的worker程序读取数据片段，解析成KV对，然后传递给自定义的map函数，再解析出中间KV对，缓存在内存中。

4、分区函数把内存中的KV对分成R个区域，周期性写入文件系统，缓存的KV对在本地磁盘位置传给master，master再把位置传给reduce worker。

5、reduceworker收到位置信息，通过RPC从map worker所在主机磁盘读取缓存数据。读取后，通过对key排序使得具有相同key的数据聚合在一起，

6、排序过后，每个key对应的value集合传给自定义reduce函数，处理之后，结果追加到所属分区的输出文件中。

7、map和reduce任务都完成后，master唤醒用户程序，返回结果。

Spark这个计算框架的两个优势是内存计算和DAG。它的五大特性：

1、 RDD都是由partition组成的

2、每个split都会有相同的计算函数

3、有一系列的依赖关系

4、对键值对类型的RDD可以为他分区，但我暂时没用过

5、移动计算，而不移动数据。他会把计算发到相应数据集所在节点。

整个spark的核心就是RDD，一个RDD中的数据可以做partition分区，对于RDD的操作也只有transformation和action两种。

一个Spark作业就是对RDD的一系列操作（transformation和一个action）。作业又可以分为多个stage，stage的划分有出现了宽依赖和窄依赖的概念。窄依赖就是父RDD的每个分区最多被一个子RDD的分区所用，宽依赖就是子RDD的每个分区依赖于父RDD的多个分区或所有分区。当一个作业的lineage过长，可以用到缓存管理，persis或者cache一下，加快整个处理速度。