Spark
文章平均质量分 97
静灵公子
但行好事,莫问前程
展开
-
Spark内核之美(一):RDD的原理与源码分析
Spark 是加州大学伯克利分校A岛。实验室( Algorithms 、Machines and People Lab )开发的通用大数据处理框架。Spark 生态系统也称为BDAS , 是伯克利APM 实验室所开发的,力图在算法( Algorithms )、机器( Machines )和人( People ) 三者之间通过大规模集成来展现大数据应用的一个开源平台。以下内容是对加州大学伯克利分校论...原创 2019-04-06 22:35:03 · 1680 阅读 · 0 评论 -
Spark内核之美(二):RDD的五大主要特性与源码分析
摘要RDD,弹性分布式数据集,是spark的底层数据结构。RDD是一个容错的,可以被并行操作的数据集合。RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不...原创 2019-04-07 13:01:05 · 1077 阅读 · 0 评论 -
Spark内核之美(三):DAGScheduler的原理与源码分析
1、前言RDD具有延迟计算的特性,当操作是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。Spark会根据Action操作之前一系列Transform操作的关联关系,生成一个DAG,在后续的操作中,对DAG进行Stage划分,生成Task并最终运行。表1Spark中支持的RDD转换(transformation算子)和动作(actio...原创 2019-04-07 20:03:27 · 794 阅读 · 0 评论