Spark

一、Spark 概述

1.1 Spark是什么

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

1.2 Hadoop 与 Spark 对比

从时间上对比:

  • Hadoop

    • 2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发
    • 2008 年 1 月,Hadoop 成为 Apache 顶级项目
    • 2011 年 1.0 正式发布
    • 2012 年 3 月稳定版发布 2013 年 10 月发布 2.X (Yarn)版本
  • Spark

    • 2009 年,Spark 诞生于伯克利大学的 AMPLab 实验室
    • 2010 年,伯克利大学正式开源了 Spark 项目
    • 2013 年 6 月,Spark 成为了 Apache 基金会下的项目
    • 2014 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目
    • 2015 年至今,Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark

从功能上上比对:

  • Hadoop

    • Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架
    • 作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据,支持着Hadoop的所有服务。它的理论基础源于Google的TheGoogleFileSystem这篇论文,它是GFS的开源实现。
    • MapReduce是一种编程模型,Hadoop根据Google的MapReduce论文将其实现,作为Hadoop的分布式计算模型,是Hadoop的核心。基于这个框架,分布式并行程序的编写变得异常简单。综合了HDFS的分布式存储和MapReduce的分布式计算,Hadoop在处理海量数据时,性能横向扩展变得非常容易。
    • HBase是对Google的Bigtable的开源实现,但又和Bigtable存在许多不同之处。HBase是一个基于HDFS的分布式数据库,擅长实时地随机读/写超大规模数据集。它也是Hadoop非常重要的组件。
  • Spark

    • Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎
    • Spark Core 中提供了 Spark 最基础与最核心的功能
    • Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。
    • Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

总结: Spark 出现的时间相对较晚,并且主要功能主要是用于数据计算,所以其实 Spark 一直被认为是 Hadoop 框架的升级版。

1.3 Spark框架和Haoop MR框架比对

在Spark框架之前,已经存在数据处理框架:Hadoop 的 MR 框架。这里对两者进行比较。

  • Hadoop MapReduce 由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存在诸多计算效率等问题。所以 Spark 应运而生,Spark 就是在传统的 MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的 RDD(Resilient Distributed DataSet,弹性分布式数据集)计算模型。
    机器学习中 ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据
    反复查询反复操作。MR 这种模式不太合适,即使多 MR 串行处理,性能和时间也是一
    个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR 显然不擅长。而
    Spark 所基于的 scala 语言恰恰擅长函数的处理。
  • Spark 是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比 MapReduce 丰富的模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图形计算算法。
  • Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。
  • Spark Task 的启动时间快。Spark 采用 fork 线程的方式,而 Hadoop 采用创建新的进程的方式。
  • Spark 只有在 shuffle 的时候将数据写入磁盘,而 Hadoop 中多个 MR 作业之间的数据交互都要依赖于磁盘交互。
  • Spark 的缓存机制比 HDFS 的缓存机制高效。

总结: 在绝大多数的数据计算场景中,Spark 确实会比 MapReduce更有优势。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark 并不能完全替代 MR。

1.4 Spark模块介绍

  • Spark Core:提供了Spark最基础和最核心的功能,Spark的其他功能,如:Spark SQL、Spark Streaming、Spark MLib、Spark GraphX都是在Spark Core的基础上进行扩展的。
  • Spark SQL:是Spark用来操作结构化数据的组件,通过Spark SQL,用户可以使用SQL或者Apache Hive版本的SQ方言(HQL)来查询数据。
  • Spark Streaming:是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API。
  • Spark MLib:Spark提供的一个机器学习算法库。MLib不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。
  • Spark GraphX:Spark面向图计算提供的框架和算法库。
    在这里插入图片描述

二、Spark任务案例

为了能直观地感受 Spark 框架的效果,这里展示WorkCount案例的数据处理图解和代码,统计文件中各单词出现的次数。
在这里插入图片描述

// 创建 Spark 运行配置对象
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
// 创建 Spark 上下文环境对象(连接对象)
val sc : SparkContext = new SparkContext(sparkConf)
// 读取文件数据
val fileRDD: RDD[String] = sc.textFile("input/word.txt")
// 将文件中的数据进行分词
val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )
// 转换数据结构 word => (word, 1)
val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))
// 将转换结构后的数据按照相同的单词进行分组聚合
val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)
// 将数据聚合结果采集到内存中
val word2Count: Array[(String, Int)] = word2CountRDD.collect()
// 打印结果
word2Count.foreach(println)
//关闭 Spark 连接
sc.stop()

三、Spark运行环境

Spark支持在多种常见的环境中运行,国内主要使用Yarn环境,容器化环境也在逐渐流行。具体支持以下几种环境:

  • Local模式
  • Standalone模式
  • Yarn模式
  • K8S & Mesos 模式
  • Windows 模式

下面介绍各种运行环境的搭建方式。可通过官网下载Spark安装包(https://spark.apache.org/downloads.html),这里使用的是spark-3.1.1-bin-hadoop3.2.tgz。

3.1 Local模式

3.3.1 部署

  1. 解压文件
tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module
mv spark-3.1.1-bin-hadoop3.2 spark-local
  1. 启动Local环境

进入解压缩后的路径,执行如下指令,这里可以输入执行scala代码。

bin/spark-shell

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vsTSsASL-1617640387861)(_v_images/20210330190954969_21479.png =744x)]

查看进程,spark-shell拉起了一个java进程:

wls81     20593  18832  0 18:44 pts/0    00:00:00 bash bin/spark-shell
wls81     20604  20593 12 18:44 pts/0    00:02:06 /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64/jre/bin/java -cp /wls/wls81/spark/spark-local/conf/:/wls/wls81/spark/spark-local/jars/* -Dscala.usejavacp=true -Xmx1g org.apache.spark.deploy.SparkSubmit --class org.apache.spark.repl.Main --name Spark shell spark-shell

SparkSubmit进程监听了4040端口,可通过浏览器访问。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bWA3gvXB-1617640387862)(_v_images/20210330191217391_20817.png =1000x)]

3.1.2 运行spark任务案例

  1. 命令行工具

在spark-shell中,执行如下scala语句,共计文件的各单词出现次数。

[wls81@spark-90 data]$ cat word.txt 
hello wls81
hello wls81
hello wls81
hello deployop
hello deployop
hello root
scala> sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res1: Array[(String, Int)] = Array((hello,6), (root,1), (deployop,2), (wls81,3))

  1. 退出spark-shell
:quit
  1. 提交应用

可以通过spark-submit命令提交执行任务。

  • –master local[2]:指定spark使用local模式,数字表示分配的虚拟 CPU 核数量
  • –class:指定jar包的入口类
  • jar包路径:指定任务代码jar包
  • 数字10:表示程序的入口参数,用于设定当前应用的任务数量
bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples/jars/spark-examples_2.12-3.1.1.jar 10

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YOwVR71U-1617640387866)(_v_images/20210402000543466_20042.png =1000x)]

3.2 Standalone模式

生产任务不会使用Local模式的spark,必须运行在集群上,这里介绍Standalone模式的使用,它体现了经典的 master-slave 模式。

3.2.1 部署

  1. 集群规划
host1(30.0.0.90)host2(30.0.0.91)host3(30.0.0.90)
`角色Master WorkerWorkerWorker
  1. 在Master主机上,将 spark-3.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩在指定位置。
  2. 进入解压缩后路径的 conf 目录,修改 workers.template 文件名为 workers,并在workers文件中添加worker节点,worker节点可以是主机名或ip。(主机名需要配置/etc/hosts解析)
  3. 修改 spark-env.sh.template 文件名为 spark-env.sh,并在文件中添加 JAVA_HOME 环境变量和集群对应的 master 节点信息。(主机名需要配置/etc/hosts解析)
export JAVA_HOME=/opt/module/jdk1.8.0_144
SPARK_MASTER_HOST=linux1
SPARK_MASTER_PORT=7077
  1. 分发 spark。将master节点上的spark目录复制到各节点上。
  2. 启动集群
sbin/start-all.sh

各节点上spark进程情况如下:

[wls81@spark-90 spark-standalone]$ jps
37058 Worker
36806 Master
63609 Jps

[wls81@spark-91 spark-standalone]$ jps
48392 Worker
76047 Jps

[wls81@spark-92 spark-standalone]$ jps
68213 Jps
39479 Worker

Master、Worker进程:

# Master进程
/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64/jre/bin/java -cp /wls/wls81/spark/spark-standalone/conf/:/wls/wls81/spark/spark-standalone/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host 30.0.0.90 --port 7077 --webui-port 8080
# Worker进程
/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64/jre/bin/java -cp /wls/wls81/spark/spark-standalone/conf/:/wls/wls81/spark/spark-standalone/jars/* -Xmx1g org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://30.0.0.90:7077
  1. 监听端口:

Master:8080(Web UI 端口)、7077
Worker监听端口:8081(Web UI 端口)和一个随机端口。

# Master
[wls81@spark-90 spark-standalone]$ netstat -anp |grep LISTEN |grep 36806
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
tcp6       0      0 :::8080                 :::*                    LISTEN      36806/java
tcp6       0      0 30.0.0.90:7077          :::*                    LISTEN      36806/java

# Worker
[wls81@spark-90 spark-standalone]$ netstat -anp |grep LISTEN |grep 37058
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
tcp6       0      0 :::8081                 :::*                    LISTEN      37058/java
tcp6       0      0 30.0.0.90:41504         :::*                    LISTEN      37058/java
  1. 访问监控页面:http://30.0.0.90:8080
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c25T16hc-1617640387869)(_v_images/20210405160422543_15561.png =932x)]

3.2.2 运行spark任务案例

  1. 提交应用

可以通过spark-submit命令提交执行任务。

  • –master spark://30.0.0.90:7077:指定使用Standalone模式,和master节点的地址
  • –class:指定jar包的入口类
  • jar包路径:指定任务代码jar包
  • 数字10:表示程序的入口参数,用于设定当前应用的任务数量
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://30.0.0.90:7077 \
./examples/jars/spark-examples_2.12-3.1.1.jar \
10

执行任务时,默认使用服务器集群节点的所有核数,每个节点使用1024M内存。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCxzX4Jb-1617640387871)(_v_images/20210405202927823_9925.png =1000x)]

  1. 任务提交命令说明

任务提交格式如下:

bin/spark-submit \
--class <main-class>
--master <master-url> \
... # other options
<application-jar> \
[application-arguments]
参数解释可选值举例
–classSpark 程序中包含主函数的类
–masterSpark 程序运行的模式(环境)模式: local[*]、 spark://linux1:7077、Yarn
–total-executor-cores 2指定所有executor使用的cpu核数为 2 个
–executor-cores指定每个executor使用的cpu核数
application-jar打包好的应用 jar,包含依赖。这个 URL 在集群中全局可见。 比如 hdfs:// 共享存储系统,如果是file:// path,那么所有的节点的path 都包含同样的 jar
application-arguments传给 main()方法的参数

3.2.3 配置历史服务

  1. 由于 spark-shell 停止掉后, 集群监控 linux1:4040 页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。
  1. 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf,并修改如下内容:
# 开启任务事件日志记录
spark.eventLog.enabled    true
# 设置日志存放位置,可以是本地路径或者hdfs路径,目录需要提前创建
spark.eventLog.dir        file:///spark/eventLog
  1. 修改 spark-env.sh 文件, 添加日志配置
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=file:///spark/eventLog
-Dspark.history.retainedApplications=30"
  • 参数 1 含义: WEB UI 访问的端口号为 18080
  • 参数 2 含义:指定历史服务器日志存储路径
  • 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
  1. 复制修改后的spark至其他所有节点
  2. 重新启动spark集群和历史服务
sbin/start-all.sh
sbin/start-history-server.sh

5) 重新执行任务

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://30.0.0.90:7077 \
./examples/jars/spark-examples_2.12-3.1.1.jar \
10
  1. 查看历史服务: http://30.0.0.90:18080

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-29DADmBE-1617640387872)(_v_images/20210406003038182_18839.png =1000x)]

3.2.3 配置高可用

3.3 Yarn模式

3.4 K8S & Mesos 模式

3.5 Windows 模式

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值