Spark
# Spark
学要无止尽
任职于达摩院自动驾驶实验室;负责自动驾驶云端计算的架构和研发;
展开
-
Spark计算过程分析
基本概念 Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程转载 2015-05-28 18:35:11 · 5573 阅读 · 1 评论 -
PySpark 的背后原理
阅读目录 1、Spark运行时架构 2、PySpark运行时架构 2.1 Driver端运行原理 2.2 Executor端运行原理 3、总结 文章正文 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在...转载 2019-03-15 11:42:58 · 248 阅读 · 0 评论