spark基础及架构

最新推荐文章于 2024-03-04 17:30:39 发布

Joie.

最新推荐文章于 2024-03-04 17:30:39 发布

阅读量125

点赞数

分类专栏： scala

本文链接：https://blog.csdn.net/Joie_TJ/article/details/109489472

版权

scala 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

spark基础及架构

一、Spark概论
二、Spark架构

一、Spark概论

Spark2.2.0版本下载地址，点击跳转！
Spark安装、文件配置及启动测试，点击跳转！

1、Spark简介

诞生于加州大学伯克利分校AMP实验室，是一个基于内存的分布式计算框架
发展历程
- 2009年诞生于加州大学伯克利分校AMP实验室
- 2010年正式开源
- 2013年6月正式成为Apache孵化项目
- 2014年2月成为Apache顶级项目
- 2014年5月正式发布Spark 1.0版本
- 2014年10月Spark打破MapReduce保持的排序记录
- 2015年发布了1.3、1.4、1.5版本
- 2016年发布了1.6、2.x版本

2、为什么使用Spark

MapReduce编程模型的局限性
- 繁杂
  - 只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码
- 处理效率低：
  - Map中间结果写磁盘，Reduce写HDFS，多个Map通过HDFS交换数据
  - 任务调度与启动开销大
- 不适合迭代处理、交互式处理和流式处理
Spark是类Hadoop MapReduce的通用并行框架
- Job中间输出结果可以保存在内存，不再需要读写HDFS
- 比MapReduce平均快10倍以上
Spark自身优势
- 速度快
  - 基于内存数据处理，比MR快100个数量级以上（逻辑回归算法测试）
  - 基于硬盘数据处理，比MR快10个数量级以上
- 易用性
  - 支持Java、Scala、Python、R语言
  - 交互式shell方便开发测试
- 通用性
  - 一栈式解决方案：批处理、交互式查询、实时流处理、图计算及机器学习
- 随处运行
  - YARN、Mesos、EC2、Kubernetes、Standalone、Local

3、Spark技术栈

Spark Core
- 核心组件，分布式计算引擎，算子
Spark SQL
- 高性能的基于Hadoop的SQL解决方案
Spark Streaming
- 可以实现高吞吐量、具备容错机制的准实时流处理系统
Spark GraphX
- 分布式图处理框架
Spark MLlib
- 构建在Spark上的分布式机器学习库

二、Spark架构

1、Spark架构设计

运行架构
- 在驱动程序中，通过SparkContext主导应用的执行
- SparkContext可以连接不同类型的Cluster Manager（Standalone、YARN、Mesos），连接后，获得集群节点上的Executor
- 一个Worker节点默认一个Executor，可通过SPARK_WORKER_INSTANCES调整
- 每个应用获取自己的Executor
- 每个Task处理一个RDD分区

2、Spark架构核心组件

术语	说明
Application	建立在Spark上的用户程序，包括Driver代码和运行在集群各节点Executor中的代码
Driver program	驱动程序。Application中的main函数并创建SparkContext
Cluster Manager	在集群（Standalone、Mesos、YARN）上获取资源的外部服务
Worker Node	集群中任何可以运行Application代码的节点
Executor	某个Application运行在worker节点上的一个进程
Task	被送到某个Executor上的工作单元
Job	包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个Job
Stage	每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage

3、Spark API

SparkContext
- 连接Driver与Spark Cluster（Workers）
- Spark的主入口
- 每个JVM仅能有一个活跃的SparkContext
- SparkContext.getOrCreate

import org.apache.spark.{SparkConf, SparkContext}

val conf=new SparkConf().setMaster("local[2]").setAppName("HelloSpark")
val sc=SparkContext.getOrCreate(conf)

Joie.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark基础及架构

spark基础及架构一、Spark概论Spark简介一、Spark概论Spark简介诞生于加州大学伯克利分校AMP实验室，是一个基于内存的分布式计算框架发展历程2009年诞生于加州大学伯克利分校AMP实验室2010年正式开源2013年6月正式成为Apache孵化项目2014年2月成为Apache顶级项目2014年5月正式发布Spark 1.0版本2014年10月Spark打破MapReduce保持的排序记录2015年发布了1.3、1.4、1.5版本2016年发布了1.6、2.x
复制链接

扫一扫