![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
ca1ifornia
这个作者很懒,什么都没留下…
展开
-
Hadoop与Spark历史
@Hadoop与Spark历史 第1章、Spark初探之Hadoop与Spark历史 1.(1)Hadoop历史 Hadoop起源于Google的三大论文 2003,2004年: 1.GFS:Google的分布式文件系统Google File System,可用于处理海量网页的存储; 2.MapReduce:Google的MapReduce开源分布式并行计算框架,可用于处理海量网页的索引...原创 2019-09-05 13:12:25 · 247 阅读 · 0 评论 -
Spark运行架构
Spark运行架构 1.基本概念 •RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型 •DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系 •Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task •Appl...转载 2019-09-21 17:36:44 · 281 阅读 · 0 评论