Spark重要知识点快速理解

最新推荐文章于 2023-09-08 17:36:08 发布

VIP文章 siyuetian1943

最新推荐文章于 2023-09-08 17:36:08 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011878191/article/details/42215499

版权

1.官方定义

a MapReduce-like cluster computing framework designed for low-latency iterative jobs and interactive use from an interpreter.

2.体系结构

3.一些重要概念的解析

(1) RDD (resilient distributed dataset)

弹性分布式数据集一个只读的，可分区的分布式数据集，能够部分或全部的缓存在内存中(数据溢出时会根据LRU策略来决定哪些数据可以放在内存里，哪些存到磁盘上)，用来减少Disk-io,Network-io的读写开销，从而降低整个计算框架的开销。RDD支持两种操作，分别是transformation，如filter、map、join、union，和Action，如reduce，count，save，collect等。transformation是从一个已有的数据集创建一个新的数据集，而action是将transformation的数据集进行迭代计算，并将计算结果传递给Driver。为了提高运行效率，Spark中所有的Action都是延迟生成的，就是说它只是暂时的记住之前的转换动作，只有当真正需要将数据集返回给Driver时才会执行这些动作。

(2)Lineage

称为血统，是用来记录RDD数据集是如何从其他RDD数据集演变过来的，当某个RDD数据集部分分区

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark重要知识点快速理解

1.官方定义 a MapReduce-like cluster computing framework designed for low-latency iterative jobs and interactive use from an interpreter.2.体系结构3.一些重要概念的解析(1) RDD (resilient d
复制链接

扫一扫

专栏目录

siyuetian1943 CSDN认证博客专家 CSDN认证企业博客

码龄11年

32: 原创

14万+: 周排名

204万+: 总排名

23万+: 访问

: 等级

2173: 积分

27: 粉丝

45: 获赞

3: 评论

157: 收藏

私信

关注

热门文章

分类专栏

最新评论

如何查看IP地址是否被占用
qq_47230203: 毕业写论文有参考了
java8卸载之后，别的版本不识别
贤宝不想编程: 楼主大大，我也是降级的，我想问问我三个都没有，还是显示不能安装有解决办法吗？
Spark应用程序运行的日志存在哪里
一口一个菠萝: 请问一下，我用foreach(println)这个输出，为什么结果在stdout里面看不见呢，在控制台是能看见结果的，也没有任何报错

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。