大数据｜Spark介绍

啦啦右一

已于 2024-02-22 19:39:53 修改

阅读量8.6k

点赞数 12

分类专栏：大数据与数据分析 # 大数据管理与分析笔记右一的电子笔记合集文章标签：大数据 spark

于 2023-05-18 15:41:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63398413/article/details/130587780

版权

右一的电子笔记合集同时被 3 个专栏收录

101 篇文章 46 订阅 ¥29.90 ¥99.00

订阅专栏

大数据与数据分析

68 篇文章 19 订阅

订阅专栏

大数据管理与分析笔记

7 篇文章 5 订阅

订阅专栏

本文介绍了Spark产生的背景，强调了其为解决MapReduce低延迟问题而提出的内存计算理念。详细阐述了Spark的基本架构，包括Master、Worker、Executor等组件，以及Spark应用程序的运行机制。此外，还讲解了RDD作为核心数据结构的角色，以及Spark的编程模型、编程接口，如RDD的创建和操作。最后，文章提到了Spark SQL、Spark Streaming、GraphX和MLlib等组件，展示了Spark丰富的功能和生态系统。

摘要由CSDN通过智能技术生成

前文回顾：Hive和数据仓库

目录

📚为什么会有Spark

📚Spark的基本架构和组件

🐇主要体系结构和组件

🐇Spark集群的基本结构

🐇Spark系统的基本结构

🐇Spark应用程序的基本结构

🐇Spark程序运行机制⭐️

📚Spark的程序执行过程

🐇Spark运行框架主节点

🐇Spark运行框架的从节点

🐇Spark程序执行过程⭐️

📚Spark编程模型

🐇Spark的基本编程方法与示例⭐️

🥕RDD的创建

🥕RDD的操作

🐇RDD的容错实现

🐇RDD之间的依赖关系

🐇RDD持久化

🐇RDD内部设计

📚Spark和集群管理工具的结合

📚Spark环境中其它功能组件简介

🐇Spark Streaming

📚为什么会有Spark

MapReduce计算模式的缺陷

最初设计用于高吞吐量批处理数据，不擅长低延迟。

需要将数据存储到HDFS，迭代计算中的数据共享效率太低。

系统设计没有充分利用内存，很难实现高性能。

MapReduce不表达复杂的计算问题，如图形计算、迭代计算。

了解本专栏

关注

12
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据｜Spark介绍

park为了解决以往分布式计算框架存在的一些问题(重复计算、资源共享、系统组合)，提出了一个分布式数据集的抽象数据模型：RDD(Resilient Distributed Datasets)弹性分布式数据集。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

啦啦右一 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。