spark架构

Spark是一种快速、通用的大数据分析引擎,以其内存计算能力著称。它由Spark Core、Spark SQL、Spark Streaming和Spark MLlib组成,支持Java、Python和Scala API。RDD作为核心数据抽象,具备分区、只读、依赖和缓存等特性,通过血统关系实现容错。Spark的窄依赖和宽依赖定义了数据计算的依赖关系,而缓存机制如cache和persist则提高了计算效率。
摘要由CSDN通过智能技术生成
  • Spark是一种快速、通用、可扩展的大数据分析引擎
  • Spark是基于内存计算的大数据并行计算框架
    在这里插入图片描述
    Spark Core :实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统 交互等模块
    Spark SQL:使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据,Spark SQL 支持多种数据源,比 如 Hive 表、Parquet 以及 JSON 等。
    Spark Streaming:是 Spark 提供的对实时数据进行流式计算的组件

Spark MLlib:提供常见的机器学习(ML)功能的程序库

Spark特点

  • 快:基于内存来高效处理数据流
  • 易用:Spark支持Java、Python和Scala的API
  • 通用:Spark提供了统一的解决方案
  • 兼容性:Spark可以非常方便地与其他的开源产品进行融合

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。

RDD特点 :

  • 分区:逻辑上是分区的
  • 只读
  • 依赖
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值