spark架构

最新推荐文章于 2024-08-21 10:54:33 发布

elpsyco

最新推荐文章于 2024-08-21 10:54:33 发布

阅读量242

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/elpsyco/article/details/103299969

版权

Spark是一种快速、通用的大数据分析引擎，以其内存计算能力著称。它由Spark Core、Spark SQL、Spark Streaming和Spark MLlib组成，支持Java、Python和Scala API。RDD作为核心数据抽象，具备分区、只读、依赖和缓存等特性，通过血统关系实现容错。Spark的窄依赖和宽依赖定义了数据计算的依赖关系，而缓存机制如cache和persist则提高了计算效率。

摘要由CSDN通过智能技术生成

Spark是一种快速、通用、可扩展的大数据分析引擎
Spark是基于内存计算的大数据并行计算框架

Spark Core ：实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块
Spark SQL：使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据，Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。
Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件

Spark MLlib：提供常见的机器学习(ML)功能的程序库

Spark特点

快：基于内存来高效处理数据流
易用：Spark支持Java、Python和Scala的API
通用：Spark提供了统一的解决方案
兼容性：Spark可以非常方便地与其他的开源产品进行融合

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。

RDD特点：

分区：逻辑上是分区的
只读
依赖

最低0.47元/天解锁文章

elpsyco

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark架构

Spark是一种快速、通用、可扩展的大数据分析引擎Spark是基于内存计算的大数据并行计算框架Spark Core ：实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块Spark SQL：使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据，Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及...
复制链接

扫一扫

专栏目录