Spark核心知识点

飞翔的梦~~~

已于 2022-03-31 22:01:34 修改

阅读量2.4k

点赞数 1

文章标签： spark

于 2022-03-29 10:14:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ghjkluuu/article/details/123808764

版权

本文详细介绍了Spark的核心知识点，包括RDD的原理、分区原理及其底层实现，深入解析了RDD如何利用分区并行计算提升性能。此外，还阐述了Spark在单节点模式下的运行方式，包括如何启动Spark Shell和提交任务，以及如何配置历史服务器。最后，讨论了Spark连接数据库和Redis的方法，以及使用mapPartitionsWithIndex方法处理数据。

摘要由CSDN通过智能技术生成

1，RDD的原理：

1，RDD是Spark中最基本的运算模式，它只负责处理运算逻辑，不存储数据本身，通过转化换算子链式的去处理数据，转换算子在执行程序过程中是不加载数据的（算子：scala中的map,flatmap等）在Spark中称为算子，可以处理通过它处理数据。

2，在RDD中最终的数据打印时通过调用，行动算子从前一个hashNext进行调用，最终第一个RDD1去hashNext数据，所以RDD的就是一个封装的迭代器，就是它的真面目，一次次迭代到每个RDD中，当有多次计算时，计算的逻辑会封装在每个计算步骤所在的RDD中，这样就成为了一个个RDD封装包，里面的逻辑就是通过调用上一个HashNext来进行一层层向上寻找逻辑，而每个RDD中都封装了上一个运算的逻辑，这样当一个RDD运算逻辑挂掉后，可以通过下一个运算重新计数，保证了容错性，提高了安全性能。

2，RDD的分区原理：

1，RDD可以根据分片大小，和设置的local的核数大小进行分区并行计算，如local[1],为本地计算机的一个核数，也就是一个分区可以说，local[*]为本地计算机的所有核数，运行速度有所提高。

最低0.47元/天解锁文章

飞翔的梦~~~

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark核心知识点

1，RDD的原理：1，RDD是Spark中最基本的运算模式，它只负责处理运算逻辑，不存储数据本身，通过转化换算子链式的去处理数据，转换算子在执行程序过程中是不加载数据的（算子：scala中的map,flatmap等）在Spark中称为算子，可以处理通过它处理数据。2，在RDD中最终的数据打印时通过调用，行动算子从前一个hashNext进行调用，最终第一个RDD1去hashNext数据，所以RDD的就是一个封装的迭代器，就是它的真面目，一次次迭代到每个RDD中，当有多次计算时，计算的逻辑会封装在每个计
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

飞翔的梦~~~ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。