Apache Spark的基本概念

最新推荐文章于 2024-07-10 21:29:08 发布

Cym02

最新推荐文章于 2024-07-10 21:29:08 发布

阅读量195

点赞数 2

分类专栏： Kafka 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gym02/article/details/105311827

版权

Kafka 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Spark是一个快如闪电的统一分析引擎，用来做大规模的数据处理。

快的原因：
1.Spark基于内存式计算，能够提供非常高效的计算能力。

2.Spark支持任务的细粒度拆分，负责的计算任务会划分多个Stage（阶段），每一个阶段都支持分布式并行计算。

3.Spark计算中间计算结果支持缓存（Cache），在结束复用和故障恢复可以提供非常高效的处理性能。

4.Spark框架在传统的大数据处理框架的基础之上进行了大量的优化（网络，IO，序列化，代码等）

可以统一的原因：
批处理：Spark PDD 代替MapReduce
流处理：Spark Streaming 代替Kafka Streams,Storm
交互式查询：Spark SQL 代替Hive
机器学习（machine learning）：Spark MLLib 代替 Mahout
图形计算（基于图形存储的NOSQL）：Spark Graphx
其他第三方生态库：3rd lib

计算分析引擎：只是用来计算的，并没有提供数据的采集和存储方案。

特点
1.高速：Spark结合了高性能的流批处理方案，使用了先进的DAH（有向无环图）调度器，能够查询优化和物理执行。

2.简单易用：支持多种编程语言。提供了超过80个高阶函数用以开发并行计算应用，值对于不同的编程语言又提供了交互式Shell终端

3.通用性：一站式数据处理方案（流批一体，SQK，GraphX，MLlib等）

4.支持多种集群运行环境：支持多种资源管理调度系统YARN，Standalone，Cloud（云计算），K8S（容器技术）

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Spark的基本概念

Spark是一个快如闪电的统一分析引擎，用来做大规模的数据处理。快的原因：1.Spark基于内存式计算，能够提供非常高效的计算能力。2.Spark支持任务的细粒度拆分，负责的计算任务会划分多个Stage（阶段），每一个阶段都支持分布式并行计算。3.Spark计算中间计算结果支持缓存（Cache），在结束复用和故障恢复可以提供非常高效的处理性能。4.Spark框架在传统的大数据处理框架的基...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。