1.spark基本工作原理

最新推荐文章于 2023-09-14 09:06:36 发布

豆不女

最新推荐文章于 2023-09-14 09:06:36 发布

阅读量435

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chuan442616909/article/details/71925020

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.分布式计算

客服端的一条执行命令，分布式的散落到集群节点上，每个节点都独立同时执行被分配的任务

2.主要基于内存计算，少数基于磁盘

3.迭代式计算

一个节点的计算结果可以，传递给下一个节点进行继续计算。Spark与MapReduce最大的不同在于，迭代式计算模型：

@1、MapReduce，分为两个阶段，map和reduce，两个阶段完了，就结束了。所以我们在一个job里能做的处理很有限，只能在map和reduce里处理。
@2、Spark，计算模型，可以分为n个阶段，因为它是内存迭代式的。我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。所以，Spark相较于MapReduce来说，计算模型可以提供更强大的功能。

4.Spark的编程过程是什么？
@1，第一，定义初始的RDD，就是说，你要定义第一个RDD是从哪里，读取数据，hdfs、linux本地文件、程序中的集合。
@2，定义对RDD的计算操作，这个在spark里称之为算子，map、reduce、flatMap、groupByKey，比mapreduce提供的map和reduce强大的太多太多了。
@3，其实就是循环往复的过程，第一个计算完了以后，数据可能就会到了新的一批节点上，也就是变成一个新的RDD。然后再次反复，针对新的RDD定义计算操作。。。。
@4，最后，就是获得最终的数据，将数据保存起来。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1.spark基本工作原理

1.分布式计算客服端的一条执行命令，分布式的散落到集群节点上，每个节点都独立同时执行被分配的任务2.主要基于内存计算，少数基于磁盘3.迭代式计算一个节点的计算结果可以，传递给下一个节点进行继续计算。Spark与MapReduce最大的不同在于，迭代式计算模型：@1.MapReduce，分为两个阶段，map和reduce，两个阶段完了，就结束了。所以我们在一个job里能做的处理很
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。