![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
说出你的愿望吧丷
公众号:说出你的愿望吧
展开
-
关于Spark的一些知识补充
前言 基于上两篇没提到的知识点的一些补充 三、Spark 内存计算框架 3.1 Spark的任务调度 Driver端运行客户端的main方法,构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler 按照 RDD 的一系列操作顺序,来生成DAG有向无环图 DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行st...原创 2020-02-23 02:17:32 · 176 阅读 · 0 评论 -
Spark的Shuffle总结分析
前言 一、shuffle原理分析 1.1 shuffle概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和...原创 2020-02-23 02:15:08 · 259 阅读 · 0 评论 -
一文带你过完Spark RDD的基础概念
前言 上一篇权当吹水了,从这篇开始进入正题。 二、Spark 的内存计算框架(重点????) RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. Dataset:就是一个集合,存储很多数据.Distributed:它内部的元素进行了分布式存储,方便于后期进行分布式计算.Res...原创 2020-02-23 02:14:15 · 379 阅读 · 0 评论 -
从零开始认识Spark
前言 Spark的知识点很多,决定分多P来慢慢讲????,比较关键的RDD算子其实已经写了大半,奈何内容还是太多了就不和这篇扯皮的放一起了。 老套路,我们点开官网来see see先吧 把这句话翻译一下 spark是在Hadoop基础上的改进,是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框架,Spark 基于 mapReduce 算法实现的分布...原创 2020-02-23 02:13:13 · 206 阅读 · 0 评论 -
一文带你深入Spark Core调优的方方面面
前言 本文的注意事项 观看本文前,可以先百度搜索一下Spark程序的十大开发原则看看哦 文章虽然很长,可并不是什么枯燥乏味的内容,而且都是面试时的干货(我觉得????)可以结合PC端的目录食用,可以直接跳转到你想要的那部分内容 图非常的重要,是文章中最有价值的部分。如果不是很重要的图一般不会亲手画,特别是本文2.2.6的图非常重要 此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明,...原创 2020-02-23 02:07:58 · 230 阅读 · 0 评论