spark理论体系思维导图（用一张图了解spark）

卷了个积寞

于 2021-04-23 20:40:56 发布

阅读量2.3k

点赞数 3

分类专栏： spark 文章标签： spark 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45997545/article/details/116070113

版权

在这里插入图片描述

简述Spark生态的组成及其相关组件的作用。

答：spark生态组成的主要组件以及组件的作用分别是：
(1)spark core: 它是spark最基础，最核心的功能组件，是一种大数据分布式处理框架，建立在RDD之上，主要面向批处理，spark core负责如内存计算，任务调度，部署模式，故障恢复，存储管理等功能。它不仅实现了MapReduce的map函数和reduce函数及计算模型，还提供更多的其他算子。
(2) spark SQL： 该组件用于结构化数据处理，建立在Spark和Hive基础之上的数据仓库。它允许工作人员直接处理RDD，同时查询Hive和HBase等外部数据源。
(3)Spark Streaming: 该组件是一种流计算框架（进行实时计算的框架），支持高吞吐量，可容错处理的实时流数据处理，并提供丰富的API用于流数据计算。
(4)Structured Streaming： 该组件是基于spark SQL引擎构建起来的可扩展且容错的流数据处理引擎，它通过一致的API接口，是开发人员可以像写批处理程序一样写流数据处理程序，降低了开发难度。它同Spark Streaming本质上都是批处理。
(5)MLlib（机器学习）: 该组件提供了spark常用的机器学习算

最低0.47元/天解锁文章

卷了个积寞

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。