在公司线上项目中引入Spark已经将近1年时间了,从效果来看,Spark确实是能提高生产力的优秀分布式计算平台。
从本篇笔记开始,会把之前调研Spark时的调研报告分享出来(限于篇幅,会分成几篇文章),以便帮助刚接触Spark的朋友们尽快入门。
下面开始正文。
从本篇笔记开始,会把之前调研Spark时的调研报告分享出来(限于篇幅,会分成几篇文章),以便帮助刚接触Spark的朋友们尽快入门。
下面开始正文。
1. 项目背景
Spark项目于2009年诞生于UC Berkeley AMP Lab并于2010年正式提交Apache Software Foundation成为开源项目。目前已经成为Apache下的明星项目,其代码提交活跃度在整个社区的所有项目中名列前茅。
2. Spark的性能
若运算过程全部在内存中完成,与Hadoop集群支持Map/Reduce的Streaming计算相比,在计算速度方面,Spark会有100x倍的性能提升;即使运算会产出中间文件,速度也有10x倍的提升。
3. 编译
从官网下载合适的Spark版本,建议下载pre-built版本,可以省去不少依赖问题。
Installing Doc的build guide是用Maven来编译Spark源码的,且编译过程中有些细节参数需要指定,这里不再赘述,直接参考官网guide即可。
4. Spark集群的部署模式
4.1 Spark集群