系统层--框架spark_路途…的博客-CSDN博客

系统层--框架spark

关注

文章平均质量分 96

Spark Streaming：构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片段（几秒），以类似batch批量处理的方式来处理这小部分数据。

关注数：文章数：4 文章阅读量：10082 文章收藏量：26

作者: 路途…

Reading is a long investment.During this process, find the entertainment and enjoy life while treasure the present to compound interest.

展开

【spark】pyspark使用

title: PySparkdate: 2020-07-13 21:59:57author: liudongdong1img: https://gitee.com/github-25970295/blogImage/raw/master/img/4.jpegcover: falsecategories: Framewroktags:streamsparkApart from real-time and batch processing, Apache Spark supports.

原创 2021-08-05 20:02:27 · 745 阅读 · 0 评论
Shuffle介绍

一概述Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了...

转载 2018-08-20 16:36:05 · 1350 阅读 · 0 评论
有向无环图DAG(代码及图解)

目录：1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果———————————————————————————————————1、有向无环图在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。因为有向图中一个点经过两种路线到达另一个点未必形成环，因此有向无环图未必能转化成...

转载 2018-08-20 15:49:53 · 7572 阅读 · 0 评论
Spark简介

官方文档：http://spark.apache.org/docs/latest/index.html【Spark】Spark是基于内存计算的大数据并行计算框架 Spark是MapReduce的替代方案【优势】中间结果输出基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行储存和容错.当一些查询翻译到MapReduce任务是,往往会产生多个Stage,而这些串联的...

转载 2018-08-20 14:21:37 · 416 阅读 · 0 评论

系统层--框架spark

作者: 路途…

【spark】pyspark使用

Shuffle介绍

有向无环图DAG(代码及图解)

Spark简介