大数据
文章平均质量分 89
Miha_Singh
不闻不若闻之,闻之不若见之,见之不若知之,知之不若行之,学至于行之而止矣
展开
-
Spark Shuffle
这一篇主要讲 Spark 中的 Shuffle 机制.将 job 划分成多个 task 后, stage 内的一个 task 可以在一个节点上完成计算, task 内以来的数据可以直接存储在当前结点上 (内存或者磁盘中). 但是 stage 间的 task 可能在不同节点上计算, 那么当前 task 怎么拿到上一 stage 的数据呢?注意到在生成物理执行计划时, 是按照宽依赖对 DAG 进行划分的, 也就是在宽依赖型的 transformation 的输入和输出之间切一刀. 所以这个问题等价于。原创 2022-10-31 15:50:59 · 195 阅读 · 0 评论 -
Spark 逻辑处理流程与物理执行计划
一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下.这一篇主要讲 Spark 中逻辑处理流程时怎么生成的, 以及在逻辑处理流程的基础上如何生成物理执行计划.⟶⟶。原创 2022-10-31 15:24:24 · 968 阅读 · 0 评论 -
Spark Overview
一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下.先大致了解一下 Spark.原创 2022-10-31 15:22:06 · 1027 阅读 · 0 评论