一 简介与功能
Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户同时将Spark部署在大量廉价硬件之上,形成集群。
1 分布式计算
2 内存计算
3 容错
4 多计算范式
Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。
官网:http://spark.apache.org
二 历史
2009年:Spark诞生于AMPLab
2010年:开源
2013年6月:Apache孵化器项目
2014年2月:Apache顶级项目
Now:Contributors>450人
三 BDSA生态系统
四 专有系统的局限性
1 重复开发
2 系统组合
3 专有系统适用范围局限
4 资源分配与管理
五 Spark优势
1 计算范式支持
打造全栈多计算范式的高效流水线
2 处理速度
轻量级快速处理
3 易用性
易于使用,分布式RDD抽象,Spark支持多语言
4 兼容性
与HDFS等存储层兼容
5 社区活跃度
社区活跃度高