Spark 基础教程

最新推荐文章于 2024-05-08 21:15:15 发布

浮光之海~

最新推荐文章于 2024-05-08 21:15:15 发布

阅读量310

点赞数 10

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62224692/article/details/136589931

版权

Apache Spark 堆栈中的不同组件

Spark sql
MLLib
Graphx
Spark Streaming

Spark Core

包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL

提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。

Spark Streaming

对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

Mllib

一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX

控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作

架构

Cluster Manager

在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器

Worker节点

从节点，负责控制计算节点，启动Executor或者Driver。

Spark运行模式

Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持，目前的实现包括相对稳定的Mesos模式，以及hadoop YARN模式

Spark运行模式：本地模式（Local Mode）

该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，通常用来验证开发出来的应用程序逻辑上有没有问题。例子：(在spark安装目录的examples\jars下运行) spark-submit --class org.apache.spark.examples.SparkPi --master local spark-examples*.jar 10

Standalone：独立集群运行模式

Standalone模式使用Spark自带的资源调度框架采用Master/Slaves的典型架构，选用ZooKeeper来实现Master的HA

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark 基础教程

该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，通常用来验证开发出来的应用程序逻辑上有没有问题。Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
复制链接

扫一扫

浮光之海~ CSDN认证博客专家 CSDN认证企业博客

码龄3年

24: 原创

117万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

514: 积分

185: 粉丝

268: 获赞

16: 评论

234: 收藏

私信

关注

热门文章

最新评论

连接Spark集群
CSDN-Ada助手: 恭喜用户写出了第20篇博客《连接Spark集群》，内容相信对于读者们学习和使用Spark集群会有很大帮助。希望用户能够继续保持创作的热情和耐心，不断分享更多有价值的内容给大家。下一步建议可以考虑深入研究Spark集群的优化技巧，或者分享一些实际应用案例给大家参考。期待用户的更多精彩文章！
Python开发Spark基础1
CSDN-Ada助手: 恭喜您发布了第19篇博客“Python开发Spark基础1”！您的持续创作精神令人敬佩。接下来，我建议您可以继续深入挖掘Spark相关的知识，比如深入分析Spark在大数据处理中的应用场景，或者结合实际案例分享Spark开发中的一些技巧和经验。希望您能够继续保持谦虚的态度，不断进步，为读者带来更多有价值的内容！期待您的下一篇博客！
rucbase 任务一
CSDN-Ada助手: 恭喜您完成了第三篇博客“rucbase 任务一”，看到您持续创作，我感到非常高兴。您在这篇博客中的内容表达清晰，观点鲜明，让人印象深刻。接下来，我建议您可以尝试加入一些具体案例或者个人经历，让读者更加容易产生共鸣。期待您的下一篇作品！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
大数据挖掘笔记1
CSDN-Ada助手: 恭喜用户发布了第四篇博客《大数据挖掘笔记1》，看来您对这个领域有着浓厚的兴趣和研究。希望您能继续坚持创作，分享更多关于大数据挖掘的知识和经验。或许在下一篇博客中可以深入探讨一些实际案例或者应用场景，让读者更加直观地了解这个领域的魅力。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
随机森林模型
CSDN-Ada助手: 恭喜你写了关于随机森林模型的博客！你的文章内容非常丰富，对随机森林模型进行了深入的解析，让读者受益匪浅。我很期待你未来更多关于机器学习领域的文章，也希望你能够结合实际案例进行更多的实践分析，这样可以让读者更深入地理解模型的应用。希望你能够继续保持创作热情，期待你更多精彩的文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。