Spark

最新推荐文章于 2022-12-17 20:06:50 发布

馋奶兔

最新推荐文章于 2022-12-17 20:06:50 发布

阅读量321

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52202899/article/details/114331910

版权

Spark是一个通用的分布式数据处理引擎，支持多种数据处理任务，如机器学习、数据流、批处理等。与Hadoop相比，Spark使用RDD，提供丰富的算子，运行效率更高，中间结果优先存储在内存中，适合处理流式和迭代数据。Spark生态系统包括DAG执行引擎，支持多种编程语言，可以与多种数据源和资源管理器集成。

摘要由CSDN通过智能技术生成

Spark简介

Spark是一个通用的分布式数据处理引擎。
这句话听起来或许很抽象，我们一个词一个词的来解释

通用：通用指的是Spark可以做很多事情。刚刚我们提到过的，包括机器学习，数据流传输，交互分析，ETL，批处理，图计算等等等等都是Spark可以做到的。甚至可以说，你需要用数据实现的任何事情，你都可以用Spark试试看。
分布式：指的是Spark处理数据的能力是建立在许多机器上的，是可以和分布式的存储系统对接的，是可以做横向扩展的（简单点说就是电脑越多，能力越大）
引擎：所谓引擎，说的就是Spark自己不会存储数据，它就像实体的机械引擎一样，会将燃料（对Spark来说是数据）转化成使用者需要的那种形式——例如驱动汽车，再例如得到一个需要的目标结论。但无论如何，巧妇难为无米之炊，没数据是万万不行的。
Spark与Hadoop对比
Spark基于RDD，数据并不存放在RDD中，只是通过RDD进行转换，通过装饰者设计模式，数据之间形成血缘关系和类型转换；
Spark用scala语言编写，相比java语言编写的Hadoop程序更加简洁；
相比Hadoop中对于数据计算只提供了Map和Reduce两个操作，Spark提供了丰富的算子，可以通过RDD转换算子和RDD行动算子，实现很多复杂算法操作，这些在复杂的算法在Hadoop中需要自己编写，而在Spark中直接通过scala语言封装好了，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

馋奶兔 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

122万+: 周排名

220万+: 总排名

1713: 访问

: 等级

76: 积分

2: 粉丝

4: 获赞

2: 评论

1: 收藏

私信

关注

热门文章

分类专栏

笔记 2篇

最新评论

Spark
不吃西红柿丶: 很不错的文章，宝藏博主~
python 1
不正经的kimol君: 666，反手就是一个赞，欢迎回赞哦~

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。