- 博客(2)
- 收藏
- 关注
转载 Spark运行架构
Spark运行架构 1.基本概念 •RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型 •DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系 •Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task •Appl...
2019-09-21 17:36:44 286
原创 Hadoop与Spark历史
@Hadoop与Spark历史 第1章、Spark初探之Hadoop与Spark历史 1.(1)Hadoop历史 Hadoop起源于Google的三大论文 2003,2004年: 1.GFS:Google的分布式文件系统Google File System,可用于处理海量网页的存储; 2.MapReduce:Google的MapReduce开源分布式并行计算框架,可用于处理海量网页的索引...
2019-09-05 13:12:25 252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人