大数据处理框架的核心理论

最新推荐文章于 2024-05-03 15:43:02 发布

冬至喵喵

最新推荐文章于 2024-05-03 15:43:02 发布

阅读量67

点赞数

分类专栏：大数据处理框架：Spark设计与实现文章标签：大数据

本文链接：https://blog.csdn.net/ALX3li/article/details/130900259

版权

3 篇文章 0 订阅

订阅专栏

一、Spark逻辑处理流程

一个典型的逻辑处理流程主要包含四个部分

数据源：Data blocks
数据模型：对输入、输出和中间数据进行抽象表示，使得程序能够识别处理。
比MR的数据模型<k,v>record，更高层的抽象：RDD
RDD只是一个逻辑概念，在内存中并不会为RDD分配存储空间（除非该RDD需要被缓存）。RDD中的数据只会在计算中产生，并且在计算完成后就会消失。
RDD可以包含多个分区，不同分区可以由不同的任务（task）在不同节点进行处理。
数据操作

操作类型	描述
action()操作	对数据结果产生后处理，会产生数据结果；会触发spark提交job，真正执行数据处理任务
transform()操作	数据操作是单向操作，不可变模型

spark RDD的个数以及类型与transform()的计算逻辑有关，如map生成的RDD个数与父RDD一致，而比如join和distinct需要对中间数据进行一系列操作，那么一个transform操作会生成多个RDD。

窄依赖v.s.宽依赖：child RDD的各个分区是否完全依赖parent RDD的各个分区。

宽依赖即shuffle dependency，parent RDD分区中的一部分流入子Rdd的一个分区，另一部分流入另外分区。

RDD的内部数据如何分区？

常用的分区方法

水平划分：按照record的索引进行划分，比如HDFS自动对输入数据进行水平划分，128M为单位的小数据块。
Hash划分：Shuffle
Range划分：排序

根据计算方式和控制流：

关注