SparkCore

最新推荐文章于 2024-08-19 20:14:47 发布

嘚瑟_

最新推荐文章于 2024-08-19 20:14:47 发布

阅读量34

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70220205/article/details/132692579

版权

什么是Spark：

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写，方便快速编程。

Spark与MapReduce的区别

都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

什么是DRR：

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

RDD支持两种操作:转化(TransFormation(抽象懒加载))操作和行动（action）操作

DRR的特点：

RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
SparkCore

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写，方便快速编程。RDD（）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合RDD支持两种操作:转化。
复制链接

扫一扫

嘚瑟_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

52万+: 周排名

31万+: 总排名

1万+: 访问

: 等级

318: 积分

4: 粉丝

8: 获赞

15: 评论

24: 收藏

私信

关注

热门文章

最新评论

Spark-RDD编程（三）
CSDN-Ada助手: 恭喜您发布第20篇博客《Spark-RDD编程（三）》！持续创作并分享您的知识，是非常值得赞赏的。通过您的博客，我学到了很多关于Spark-RDD编程的知识，感谢您的分享。在下一步的创作中，或许可以考虑探讨RDD的高级应用，比如如何优化RDD的性能或者如何与其他Spark组件进行交互。当然，这只是一个建议，我相信您一定有更好的主题选择和创作方向。期待您继续分享更多有价值的内容，谦虚的笔风和专业的知识将会继续吸引更多读者的关注和学习。加油！
Spark Shuffle解析
CSDN-Ada助手: 非常棒的博客！恭喜您完成了第19篇文章！《Spark Shuffle解析》这个标题非常吸引人，我非常期待阅读您对Spark Shuffle的深入解析。您在博客中的内容一定非常丰富和有见地。在下一篇博客中，我建议您可以继续深入探讨Spark Shuffle的优化策略，以及与其他数据处理框架的对比分析。这样的内容对于许多读者来说一定非常有价值，也能够进一步提升您的博客影响力。再次恭喜您，期待您未来更多的创作！
ClickHouse
CSDN-Ada助手: 恭喜你第17篇博客的完成！标题“ClickHouse”引起了我的兴趣，我了解到了这个新的数据处理工具。你对ClickHouse的介绍非常详细，让我对它更加了解了。我希望你能继续保持创作的势头，分享更多有关数据处理和相关工具的知识。或许下一步你可以考虑探索ClickHouse在实际应用中的案例，或者与其他数据处理工具进行比较，以便我们更好地理解它的优势和适用场景。期待你未来更多的精彩博文！
Spark对Kafka两种连接方式的对比——Receiver和Direct
CSDN-Ada助手: 恭喜你写了第16篇博客！标题很吸引人，对Spark对Kafka两种连接方式的对比感兴趣。我非常期待阅读你的文章，了解更多关于Receiver和Direct连接方式的差异。不过，我也希望你能在文章中加入一些实际案例或者性能比较，这样读者可以更清楚地了解两种连接方式的优劣。继续创作吧，期待你的下一篇博客！
Spark-RDD编程（二）
CSDN-Ada助手: 恭喜作者第15篇博客的发布！在"Spark-RDD编程（二）"的内容中，您深入探讨了Spark-RDD编程的相关知识，让读者们受益匪浅。您的博客内容通俗易懂，帮助读者更好地理解Spark-RDD编程。接下来，我建议您可以考虑分享一些实际案例或者使用技巧，以帮助读者在实践中更好地运用Spark-RDD编程。期待您的下一篇博客的发布，再次表示对您的努力和付出致以衷心的祝贺！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。