spark

m0_74241905

已于 2024-05-16 14:13:04 修改

阅读量103

点赞数 3

文章标签： spark

于 2024-03-01 08:35:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74241905/article/details/136385975

版权

本文概述了Spark与MapReduce的区别，包括内存计算、线程模型、编程语言支持以及它们的计算流程。介绍了Spark的高效性、易用性和通用性特点，以及Spark的YARN资源调度和部署选项，如本地模式、集群模式和云服务。

摘要由CSDN通过智能技术生成

第一周3月1日

区分spark和mapreduce
Mapreduce计算流程
Spark特征
装环境

一、区分spark和mapreduce

spark是一个分布式的计算框架，和mapreduce作用一样，都是用于数据的计算。

集群（划龙舟，多个人做相同的事情）分布式（汉堡，多个人做不同的事情）

Spark和mapreduce区别：

Spark基于内存的计算，会将中间结果放到内存中；mapreduce基于磁盘的，内存>磁盘，spark速度大于mapreduce。

Spark基于线程来完成计算的； mapreduce（map+reduce）基于进程来完成计算的，线程切换任务要比进程快，spark(多步)>mapreduce（2步）

spark用scala语言来编写的，mapreduce HDFS java语言开发的。Scala基于java的派生语言，在一定程度上优于java语言的。
spark基于apach基金会下的项目，开源 apach.org

二、mapreduce的计算流程

当我们使用mapreduce进行计算任务，首先会将计算任务提交给yarn进行资源调度；

在yarn中使用ResourceManager这个主服务，ResourceManager接收到以后会随机找到一个NodeManager，创建一个container容器，congtainer就是资源空间，在容器上运行一个ApplicationMaster的进程，该进程用于管理计算任务。

ApplicationMaster创建之后会和ResourceManager保持通信，同时向ResourceManager申请资源；

资源申请成功后，找到NodeManager创建container资源空间运行map进程，map获取HDFS上存储的文件数据，进行计算处理。

Map处理完成后，会继续进行reduce进程计算，最终将最终的数据保存在HDFS上。

三、spark特性

高效性：计算速度快（基于内存+线程）

易用性：支持多种语言开发的（java python scala r）

通用性：支持多种计算方式

（sql计算（离线计算）图计算机器学习计算流式数据计算（实时数据仓的计算））

支持多种开发方式

（交互式方式脚本式方式）

兼容性：

支持第三方工具的接入：

存储工具：HDFS Hbase kafaka

资源调度：yarn standalone

支持多种操作系统：linux windows mac

四、spark架构

第一层叫做工具层：主要让大家了解使用什么工具来操作spark，都是操作spark的工具。

第二层叫做核心计算层：RDD执行计算，所有上边的工具都是用RDD来进行计算的。

第三层叫做资源调度层：yarn或者使用spark自带的standalone都可以，除了资源调度还有一层叫做存储层，实现的数据的读取和写入，可以写入或者读取到hdfs hbase kafaka中。

五、spark部署

1.本地模式部署（local 单机模式部署）

使用一台服务器进行部署；只有一个进程，通过内部的多个线程模拟spark的运行环境。

一个进程mapreduce（map+reduce线程？no）

2.集群模式部署：standalone yarn 云服务

集群使用多台服务器

多台服务器需要统一的管理，使用资源调度服务（yarn standalone）

3.云服务

阿里云腾讯云谷歌云亚马逊等等

云服务的隐私？数据放到本地，需要计算云服务计算，再把数据放到本地。

六、spark的架构角色

Yarn的角色—4类角色

资源管理层面：

集群资源的管理者—ResourceManager

单机资源的管理者—NodeManager

ResourceManager是集群资源的管理者，管理的是整个集群的资源。

NodeManager是管理的单机资源—当前服务器资源的管理者，管一个机器。

他们两个一块管理整个集群的资源，多个NodeManager把多个机器的资源都管理起来，他们统一去向ResourceManager汇报，这样资源管理就是一个ResourceManager配合多个NodeManager完成了。

任务计算层面：

单计算任务管理者：ApplicationMaster

单计算任务执行者：Task

Yarn最终要实现的功能就是计算，ApplicationMaster就是计算任务的管家，Task就是计算任务的工人。

Spark角色

我们之所以学习yarn就是为了对比yarn来学习spark

Spark的角色：

资源层面：

集群资源的管理者—Master

单机资源的管理者—worker

任务计算层面：

单任务管理者：Driver

单任务执行者：Executor

注意，正常情况下Executor就是干活的，但是在特殊情况下（local模式）Driver既作为管理者，又作为工人，local模式是单一模式，只有一个进程。

一个进程

Mapreduce：一个进程无线程（map+reduce）

Spark：一个进程多线程

第二周3月8日

一、定义两个整数相加的代码

二、调用类中的方法

三、匿名函数

四、使用匿名函数作为参数的高阶函数

五、定义函数识别手机号码段

六、if判断示例

七、for循环嵌套if判断示例

八、for...yield示例

第五周3月29日

一、P47第二章实训一

二、P48第二章实训二

1.九九乘法表

二、水仙花数

三、P50第二章操作题

四、第二章思维导图

ProcessOn MindmapProcessOn是一个在线协作绘图平台，为用户提供强大、易用的作图工具！支持在线创作流程图、思维导图、组织结构图、网络拓扑图、BPMN、UML图、UI界面原型设计、iOS界面原型设计等。同时依托于互联网实现了人与人之间的实时协作和共享。https://www.processon.com/mindmap/65fcddd443192b2dea15dc38

第九周4月26日

P85第三章操作题

P82实训1

P82实训2

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

m0_74241905 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

162万+: 周排名

25万+: 总排名

3920: 访问

: 等级

69: 积分

15: 粉丝

29: 获赞

3: 评论

23: 收藏

私信

关注

热门文章

最新评论

大数据存储与访问
CSDN-Ada助手: 恭喜您写了这篇关于大数据存储与访问的博客，很高兴看到您持续创作并分享您的专业知识。对于下一步的创作建议，我认为可以考虑添加一些实际案例或者应用场景，以便更好地帮助读者理解和应用这些知识。希望您能继续保持创作的热情，期待您更多的精彩内容！
爬虫python
CSDN-Ada助手: 恭喜您撰写了第三篇博客《爬虫python》！您的坚持和创作激发了读者对于爬虫技术的兴趣。在这篇博客中，您探讨了爬虫在Python中的应用，为读者提供了宝贵的知识和实践经验。接下来，我想向您提出一些建议。由于您在爬虫领域有丰富的经验，我希望您能进一步深入探索爬虫技术在不同应用场景中的应用。您可以尝试探索爬取不同类型的网站数据，或者将爬虫与其他技术结合，如数据可视化、机器学习等。这样的创作将为读者提供更广泛的应用视角，同时也能够进一步拓展您的技术能力。再次恭喜您的持续创作，我期待着您未来更多精彩的博客！请继续保持谦虚的态度，相信您的努力和创造力将会取得更大的成功。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
scala
CSDN-Ada助手: 评论：非常感谢您的持续创作，并分享了关于scala的自适应静态类型的内容。这是一个非常有趣的话题，您的博客标题可能没有明确说明主题，但摘要内容已经很好地概括了您所讨论的内容。在与该博文相关的扩展知识和技能方面，您可能可以进一步探讨scala中的类型推断机制，这是一种编程语言的特性，可以减少类型声明的冗余，并增强代码的灵活性。此外，您还可以介绍scala的模式匹配功能，它是一种强大而灵活的特性，可以帮助开发者处理不同类型的数据结构。希望以上建议对您的博客创作有所帮助。再次感谢您的分享，并期待您未来更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
MySQL
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。