一、Spark简介
什么是Spark?
- 快速、分布式、可扩展、容错的集群计算框架;
- Spark是基于内存计算的大数据分布式计算框架;
- 低延迟的复杂分析;
- Spark是Hadoop MapReduce的替代方案。
二、Spark的发展历史
对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。目前,Spark已经成为Apache软件基金会旗下的顶级开源项目。下面是Spark的发展历程简述:
- 2009年,Spark诞生于伯克利大学AMPLab,最初属于伯克利大学的研究性项目,实验室的研究人员之前基于Hadoop MapReduce工作,他们发现MapReduce对于迭代和交互式计算任务效率不高,因此他们研究的Spark主要为交互式查询和迭代算法设计,支持内存存储和高效的容错恢复。
- 2010年Spark正式开源。
- 2013年6月成为了Apache基金会的孵化器项目。
- 2014年2月,仅仅经历8个月的时间Spark就成为Apache基金会的顶级项目,同时,大数据公司Cloudera宣称加大Spark框架的投入来取代MapReduce。
- 2014年5月,Pivotal Hadoop集成Spark全栈,同月30日,Spark1.0.0发布。
- 2015年Spark增加了新的DataFrames API和Dataset API
- 2016年Spark2.0发布,Spark2.0与1.0的区别主要是2.0修订了API的兼容性问题。
- 2017年在美国旧金山