大数据Spark和Hadoop以及区别（干货）

最新推荐文章于 2024-08-31 08:11:40 发布

BAO7988

最新推荐文章于 2024-08-31 08:11:40 发布

阅读量1.4k

点赞数

分类专栏：大数据文章标签：大数据 Hadoop 大数据开发大数据入门 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAO7988/article/details/103528543

版权

本文对比了大数据处理框架Spark和Hadoop，Spark作为通用计算框架，包含Spark Core、Spark SQL、Spark Streaming和Spark MLlib等组件，以其速度、易用性和通用性著称，与Hadoop的HDFS和MapReduce协同工作。Hadoop则主要负责数据存储和资源调度，其HDFS和MapReduce构成核心。Spark与Hadoop的区别在于计算原理、数据存储处理方式、速度、恢复性以及处理数据类型上，各有侧重。

摘要由CSDN通过智能技术生成

1. Spark是什么？

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图计算。

Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive、HBase等），以及资源调度（Yarn）。

2.Spark整体架构

大数据Spark和Hadoop以及区别（干货）

Spark的特点:

速度快：Spark基于内存进行计算（当然也有部分计算基于磁盘，比如shuffle）。

容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序、topn等复杂操作时，更加便捷。

超强的通用性：Spark提供了Spark RDD、Spark SQL、Spar

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。