01 Spark的定义
- Spark:一个通用的快速分析引擎。
- 分布式计算框架
- 简言之,Spark 为我们常见的批处理、流处理、数据分析、数据探索、机器学习等场景都提供了很好的解决方案,任何有数据处理需求的人,都可以用它来完成自己的研究与日常工作。
02 MapReduce: 计算框架和编程模型
内容主要有以下几点:
- Google 的三驾马车;
- MapReduce 编程模型与 MapReduce 计算框架;
- 并发与并行;
- 如何理解分布式计算框架的编程接口与背后的工程实现。
Google 的三驾马车
USNew 把计算机科学分为 4 个领域:人工智能、编程语言、系统以及理论。其中的系统领域有两大顶级会议,一个是 ODSI(USENIX conference on Operating Systems Design and Implementation),另一个是 SOSP(ACM Symposium on Operating Systems Principles),这两个会议在业界的分量非常重,如果把近几十年关于这两个会议的重要论文收