Spark架构综述

最新推荐文章于 2021-05-17 18:14:53 发布

VIP文章 Zzreal

最新推荐文章于 2021-05-17 18:14:53 发布

阅读量3.2k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zonzereal/article/details/79181574

版权

一、Spark概述

1、什么是Spark

Spark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。

2、Spark的优点

①速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。

②易用。Spark支持java、python、scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Spark支持交互式的python和scala的shell。

③通用性。Spark提供了统一的解决方案,可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(MLlib)和图计算(GraphX).作为统一的解决方案,Spark不仅没有牺牲性能作为代价,相反,在性能方面具有很大的优势。

④可融合性。Spark可以非常方便的与其他开源产品进行融合,比如Hadoop的YARN和Apache Mesos，并且可以处理所有Hadoop支持的数据，包括HDFS、Hbase和Cassandra。

3、Spark的架构综述

（1）Spark的整体架构如下图所示。

其中，Driver是用户编写的数据处理逻辑，这个逻辑中包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群主要的交互接口，它会和ClusterManager交互，包括向它申请计算资源等。ClusterManager负责集群的资源管理和调度，现在支持Standalone、Apache Mesos和Hadoop的YARN。Work

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark架构综述

一、Spark概述1、什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。2、Spark的优点①速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。②易用。Spark支持java、python、scala的API,
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。