Spark从入门到精通3 -- Spark简介

Spark

Spark简介

  • Spark是一个用来实现快速且通用的集群计算平台
Spark组件示意图
Spark SQL
Spark Core
Spark Streaming
MLlib
GraphX
独立调度器
YARN
Mesos
  • Spark Core

Spark CoreSpark的核心计算引擎,提供了任务调度、内存管理、错误恢复、与存储系统交互等模块。其中的弹性分布式数据集(RDD),是计算时的主要编程抽象,基于RDD对数据进行创建、操作与计算。

  • Spark SQL

Spark SQL是用来操作结构化数据的程序包,支持多种数据源(Hive表、Parquet、JSON),可以基于Spark SQL进行数据的查询,为数据计算提供数据入口。

  • Spark Streaming

Spark Streaming是对实时数据进行流式计算的组件,比如处理服务器日志或者消费消息队列。

  • Mllib

Mllib作为Spark组件中机器学习的程序库,具有包括分类、回归、聚类、协同过滤等算法。

  • GraphX

GraphX是用来操作图的程序库、可以并行进行图计算,并支持常用的图算法。

Spark四种运行模式

1、本地单机模式:所有Spark进程都运行在一个Java虚拟机中

2、集群单机模式:使用Spark自己内置的任务调度框架

3、基于Mesos

4、基于YRAN

Spark用户与用途
  • 用户:数据科学家与工程师
  • 用途:数据科学应用与数据处理应用
Spark简史
Spark于2009年作为加州大学的研究项目诞生
2010年3月开源
2013年6月被Apache收购
Spark核心概念
  • Spark应用是由一个驱动器程序(driver programmer)和多个执行器(executor)节点组成。在启动Spark应用后,会通过创建一个上下文对象(SparkContext)Spark应用进行操作,上下文对象代表对计算集群的一个连接。

  • 示意图

驱动器程序 SparkContext
工作节点A 执行器
工作节点B 执行器
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值