大数据时代，为什么使用Spark框架？

最新推荐文章于 2024-07-02 14:42:02 发布

lmalds李麦迪

最新推荐文章于 2024-07-02 14:42:02 发布

阅读量4.4k

点赞数

分类专栏：大数据文章标签： Spark Hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lmalds/article/details/51189634

版权

Spark相比Hadoop具有显著优势，如基于内存的快速计算、轻量级API、多语言支持、丰富的查询操作、准实时流处理能力以及与Hadoop的良好整合。它提供Spark SQL、Streaming、MLLib和Graph X等框架，支持Scala、Java、Python和R语言，并能执行复杂的SQL查询、流处理和机器学习任务。

摘要由CSDN通过智能技术生成

1、轻量级快速处理

Spark的快速是相当于Hadoop等其他分布式集群而言，其快速主要原因是基于内存的计算，减少了IO的操作，使用RDD可以将中间结果存放在内存或磁盘，以便之后做迭代计算时重复使用。

Spark的轻量级体现在其仅仅是一个计算框架，且提供了Spark SQL、Spark Streaming、MLLib以及Graph X等框架，这些框架提供了轻量级的API来处理数据。

2、支持多语言

相比于Hadoop只支持Java，Spark支持的语言包括Scala、Java、Python，且提供了Spark R支持R语言。

3、支持复杂查询

相比于Hadoop中的算子操作只包含map、reduce而言，Spark支持的算子操作非常丰富，基于RDD的算子操作包括2大类：Transformation级别以及Action级别。Transformation的算子包括Map、filter、flatmap、groupByKey、reduceByKey等；Action级别的操作会真正触发Job的执行，包括count、reduce、first，collect等。

同时，Spark支持复杂的SQL查询，流处理，机器学习及图形处理等复杂的操作。

4、准实时的流处理

Hadoop一般只能进行离线处理。如果想进行准实时（以分钟为单位）的数据处理，则Spark Str

最低0.47元/天解锁文章

lmalds李麦迪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。