本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。
详细内容可参考Spark入门教程-1
Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主要由Databricks公司进行维护(公司创始员工均来自AMPLab),根据本人自2014学习Spark的理解,从下面几个方面介绍。
1、为什么出现Spark?
2、Spark核心是什么?
3、Spark怎么进行分布式计算?
4、Spark在互联网公司的实践应用?
1、为什么出现Spark?
肯定是比Hadoop的MR计算要好,好在如下方面:
- 高效
- 多框架整合
1)为什么高效?
- 相对于Hadoop的MR计算,Spark支持DAG,能缓存中间数据,减少数据落盘次数;
- 使用多线程启动task,更轻量,任务启动快。计算速度理论上有10-100倍提升。(根据个人工作验证,计算效率相对Hadoop至少是3倍以上)
- 高度抽象API,代码比MR少2-5倍甚至更多,开发效率高
2)为什么多框架整合?
相对于过去使用Hadoop + Hive + Mahout + Storm 解决批处理、SQL查询和实时处理和机器学习场景的大数据平台架构,其最