Spark调研笔记第1篇 - Spark简介

本文介绍了Spark项目的起源,强调了其在性能上的优势,并详细阐述了Spark集群的三种部署模式:Standalone、Apache Mesos和Hadoop YARN,以及Spark应用提交流程和集群组件。此外,还提到了Spark executor进程的特性及其与driver program的关系。
摘要由CSDN通过智能技术生成
在公司线上项目中引入Spark已经将近1年时间了,从效果来看,Spark确实是能提高生产力的优秀分布式计算平台。
从本篇笔记开始,会把之前调研Spark时的调研报告分享出来(限于篇幅,会分成几篇文章),以便帮助刚接触Spark的朋友们尽快入门。
下面开始正文。

1. 项目背景
Spark项目于2009年诞生于UC Berkeley AMP Lab并于2010年正式提交Apache Software Foundation成为开源项目。目前已经成为Apache下的明星项目,其代码提交活跃度在整个社区的所有项目中名列前茅。

2. Spark的性能
若运算过程全部在内存中完成,与Hadoop集群支持Map/Reduce的Streaming计算相比,在计算速度方面,Spark会有100x倍的性能提升;即使运算会产出中间文件,速度也有10x倍的提升。

3. 编译
从官网下载合适的Spark版本,建议下载pre-built版本,可以省去不少依赖问题。
Installing Doc的build guide是用Maven来编译Spark源码的,且编译过程中有些细节参数需要指定,这里不再赘述,直接参考官网guide即可。

4. Spark集群的部署模式
4.1 Spark集群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值