Spark调研笔记第1篇 - Spark简介

最新推荐文章于 2021-08-30 10:09:14 发布

slvher

最新推荐文章于 2021-08-30 10:09:14 发布

阅读量1.4k

点赞数

分类专栏： RecSys

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slvher/article/details/46377553

版权

本文介绍了Spark项目的起源，强调了其在性能上的优势，并详细阐述了Spark集群的三种部署模式：Standalone、Apache Mesos和Hadoop YARN，以及Spark应用提交流程和集群组件。此外，还提到了Spark executor进程的特性及其与driver program的关系。

摘要由CSDN通过智能技术生成

在公司线上项目中引入Spark已经将近1年时间了，从效果来看，Spark确实是能提高生产力的优秀分布式计算平台。
从本篇笔记开始，会把之前调研Spark时的调研报告分享出来（限于篇幅，会分成几篇文章），以便帮助刚接触Spark的朋友们尽快入门。
下面开始正文。

1. 项目背景
Spark项目于2009年诞生于UC Berkeley AMP Lab并于2010年正式提交Apache Software Foundation成为开源项目。目前已经成为Apache下的明星项目，其代码提交活跃度在整个社区的所有项目中名列前茅。

2. Spark的性能
若运算过程全部在内存中完成，与Hadoop集群支持Map/Reduce的Streaming计算相比，在计算速度方面，Spark会有100x倍的性能提升；即使运算会产出中间文件，速度也有10x倍的提升。

3. 编译
从官网下载合适的Spark版本，建议下载pre-built版本，可以省去不少依赖问题。
Installing Doc的build guide是用Maven来编译Spark源码的，且编译过程中有些细节参数需要指定，这里不再赘述，直接参考官网guide即可。

4. Spark集群的部署模式
4.1 Spark集群

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。