Spark概述极其运行模式

小小臭皮蛋

已于 2024-03-04 17:34:39 修改

阅读量1.3k

点赞数 34

文章标签： spark

于 2024-03-04 15:21:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80840537/article/details/136451503

版权

本文介绍了ApacheSpark，一个多语言引擎，用于高效执行数据处理、科学计算和机器学习。文章详细比较了Spark与HadoopMapReduce在内存计算、运行速度、编程模型和数据处理方式等方面的差异，并探讨了Spark的组件如SparkSQL、SparkStreaming、MLlib和GraphX。此外，还解释了Spark的运行模式，如Standalone、Mesos和YARN，以及核心原理中的窄依赖和宽依赖概念。

摘要由CSDN通过智能技术生成

spark是什么？

Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.（Apache Spark™是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习）

Spark和Hadoop MapReduce的区别

共同点：都是两种常用的大数据处理框架

内存计算能力：Spark具有内存计算能力，可以将数据存储在内存中进行快速计，而MapReduce则需要将数据写入盘，导致开销较大。
运行速度：由于Spark的内存计算能力，相对于MapReduce它可以更快地处理大规模数据。Spark采用了弹性分布式数据集（RDD）的概念，可以在内存中缓存数据，从而避免了磁盘IO的开销。Spark的运行速度是Hadoop MapReduce运行速度的100多倍。一般情况下，对于迭代次数较多的应用程序

内存运行速度磁盘运行速度

spark 100x 10x

Hadoop MapRrduce x x
编程模型：Spark提供了更为灵活的编程模型，支持多种编程语言（如Scala、Java、Python和R），并且提供了丰富的高级API（如Spark SQL、Spark Streaming和MLlib等），使得开发者可以更方便地进行数据处理和分析。而MapReduce则需要使用Java编程语言，并且编写Map和Reduce函数。
数据处理方式：Spark支持多种数据处理方式，包括批处理、交互式查询和流式处理等，而MapReduce主要用于批处理任务。
容错性：Spark具有更好的容错性，当节点发生故障时，可以快速恢复并继续执行任务。而MapReduce需要将中间结果写入磁盘，导致容错性较差。

结构化和非结构化，半结构化数据是什么？

1.结构化数据：即行数据,存储在数据库里,

最低0.47元/天解锁文章

小小臭皮蛋

关注

34
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小小臭皮蛋 CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

145万+: 周排名

19万+: 总排名

3221: 访问

: 等级

108: 积分

64: 粉丝

77: 获赞

4: 评论

74: 收藏

私信

关注

热门文章

最新评论

Spark基础
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Spark基础
CSDN-Ada助手: 恭喜用户发布了第三篇博客“Spark基础”！持续创作是非常不易的，你的努力和热情让我们看到了你对知识的追求。下一步建议可以深入探讨Spark的高级功能，或者分享一些实际应用案例，让读者更好地了解和应用Spark技术。希望你能继续保持创作的激情，为大家带来更多有价值的内容。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
spark编程基础
CSDN-Ada助手: 非常棒的博文！你对spark编程基础的理解非常深入，文章内容清晰易懂。继续保持创作的热情和努力，相信你会有更多精彩的文章呈现给大家。除了你提到的这些方法和操作外，还有一些扩展知识和技能可以帮助你更好地应用Spark。比如，了解RDD的依赖关系和宽窄依赖，可以帮助你优化Spark程序的性能；掌握Spark的调优技巧和参数设置，可以提升作业的执行效率；熟悉Spark的容错机制和数据分区策略，可以确保程序的稳定性和可靠性。希望这些建议对你有所帮助，期待看到更多关于Spark编程的分享和探讨！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Spark概述极其运行模式
CSDN-Ada助手: 恭喜你开始了自己的博客创作之旅！标题“Spark概述极其运行模式”很吸引人，看得出你对Spark有着深入的理解。希望你可以继续分享更多关于Spark的知识，可以考虑深入探讨Spark在大数据处理中的应用，或者分享一些实际案例和经验。期待你的下一篇博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

pyrhon爬取京东商品评论数据分析（小白来了都会） 175

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。