Spark架构和原理

介绍

Spark是一个开源分布式计算框架,可以进行批处理和流处理计算。相对于其他分布式计算框架,它有几个特点:
1、快。Spark是基于内存进行计算的,官方宣称计算速度比MapReduce快100倍
2、易用。提供了Java、Python、Scala、R等多种语言支持,也支持SQL交互方式
3、全面。Spark包含了多种计算库,有Spark SQL、Spark Streaming、MLlib、GraphX
4、可移植。Spark可以运行在多种平台上,包括Hadoop、Apache Mesos、Kubernetes、Standalone、Cloud

Spark生态圈

Spark内部包含了多种计算库,用于支撑不同的数据计算。Spark生态圈包括:
1、Spark Core。Spark核心部分,包含基本功能(任务调度、内存管理、容错机制)和RDD相关操作API,其他Spark库都是构建在Spark Core和RDD之上的
2、Spark SQL。处理结构化数据的计算库,提供SQL语言级别的使用
3、Spark Streaming。准实时流式计算库
4、MLlib。机器学习库
5、GraphX。图计算库

以下是Spark生态圈官方图谱:
在这里插入图片描述

Spark RDD

RDD(Resilient Distributed Dataset)弹性式分布数据集,是Spark内部计算专用的数据结构。在Spark计算时候,先将外部数据源转化成RDD,然后基于RDD再进行转化或者分析计算。
RDD特点:
1、只读性。RDD具有只读性,不能进行更新等操作,RDD只能进行转换,由原来的RDD转换成另外一个新RDD
2、分区性。RDD具有分区特性

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值