Spark

傲雪凌霜，松柏长青

于 2024-09-04 22:34:25 发布

阅读量190

点赞数 2

分类专栏：后端大数据文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Casual_Lei/article/details/141906069

版权

后端同时被 2 个专栏收录

72 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

Spark 是一个快速的、通用的集群计算系统，主要用于大规模数据处理。它最早由加州大学伯克利分校的AMPLab开发，并于2010年开源，后来由Apache软件基金会管理。

1. 核心概念

RDD（Resilient Distributed Dataset）：RDD是Spark的核心抽象，表示一个分布式的、不变的集合。它提供了对大数据集的容错机制，支持并行操作。
DataFrame：DataFrame 是基于RDD的另一种高级抽象，类似于传统的数据库表或Excel表格。它提供了更丰富的优化和更简洁的API，常用于结构化数据处理。
Dataset：Dataset结合了RDD和DataFrame的优点，具有编译时类型安全的特点，适合结构化数据的处理。

2. 组件

Spark Core：Spark的核心组件，负责基本的任务调度、内存管理、容错、存储系统交互等。
Spark SQL：用于处理结构化数据的模块，支持SQL查询、数据读写、数据源连接等功能。
Spark Streaming：支持实时数据流处理，允许用户处理和分析实时数据流。
MLlib：Spark的机器学习库，提供了常用的机器学习算法，如分类、回归、聚类等。
GraphX：用于图计算的库，支持图的表示、操作和并行计算。

3. 优势

高速处理：Spark比Hadoop的MapReduce要快很多，得益于它的内存计算和有向无环图（DAG）执行引擎。
灵活性：支持多种语言（Java、Scala、Python、R），并且可以与Hadoop生态系统无缝集成。
丰富的生态系统：Spark提供了许多组件，使得它可以处理各种类型的数据，包括批处理、流处理、机器学习和图计算。

4. 应用场景

大数据处理：如ETL操作、数据清洗等。
实时数据处理：如实时流处理、实时数据分析。
机器学习：利用MLlib库进行机器学习模型的训练和预测。
图计算：如社交网络分析、推荐系统等。

5. Spark的工作原理

Spark将作业分解为多个任务，然后将这些任务分发到集群中的各个节点执行。作业通常会被划分为若干个阶段，每个阶段由一系列相互依赖的任务组成。Spark通过RDD的依赖关系来管理数据的流动，并在任务失败时自动重试。

6. 集成与扩展

Spark可以与Hadoop集成，使用Hadoop的HDFS作为存储系统，同时也能与其他数据源（如HBase、Cassandra）对接。通过Spark的API扩展性，用户可以创建自定义的计算模型和数据处理流程。

傲雪凌霜，松柏长青

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark

Spark 是一个快速的、通用的集群计算系统，主要用于大规模数据处理。它最早由加州大学伯克利分校的AMPLab开发，并于2010年开源，后来由Apache软件基金会管理。
复制链接

扫一扫

专栏目录

傲雪凌霜，松柏长青 CSDN认证博客专家 CSDN认证企业博客

码龄5年

141: 原创

9万+: 周排名

1万+: 总排名

11万+: 访问

: 等级

3407: 积分

1494: 粉丝

1965: 获赞

18: 评论

1437: 收藏

私信

关注

热门文章

分类专栏

后端 72篇
大数据 6篇
华为od机试 17篇
中间件 33篇
设计模式 1篇
算法 11篇
linux 6篇
机器学习 2篇
SpringCloud 7篇
容器化 2篇
数据结构 13篇
算法基础 12篇
前端 3篇
杂谈
云计算 5篇
centos 2篇
openstack 2篇

最新评论

Kafka
TopicOnline: https://blog.csdn.net/m0_74022498/article/details/140742330?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140742330%22%2C%22source%22%3A%22m0_74022498%22%7D
Redis 跳跃列表与紧凑列表
小王毕业啦: 博主的这篇文章对于Redis 跳跃列表与紧凑列表的讲解非常透彻，让我对这个主题有了全新的认识。博主对细节的描写非常到位，展现出了深厚的专业功底和丰富的经验。期待博主未来能够持续分享更多类似的好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
rabbitmq消息投递失败
泡芙萝莉酱: 博主的这篇关于“rabbitmq消息投递失败”的文章真是让人眼前一亮，内容丰富，让我对这个话题有了更深入的了解。博主对细节的描写非常到位，展现出专业的功底和丰富的经验。期待博主未来能够继续分享更多这样有价值的好文，希望能够得到博主的指导，共同进步。再次感谢博主的分享和支持！
websocket
征途黯然.: websocket article is outstanding and truly great.
SpringCloudNetflix组件整合
虎子和狗蛋: 订单服务IP却是".2"

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。