0801-Spark基础解析

最新推荐文章于 2024-07-17 11:13:52 发布

YanLzh_MAlone

最新推荐文章于 2024-07-17 11:13:52 发布

阅读量126

点赞数

分类专栏： 08 大数据核心开发技术 - 内存计算框架Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_35199832/article/details/103531048

版权

08 大数据核心开发技术 - 内存计算框架Spark 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

0801-Spark基础解析

第一章 Spark概述
- 1.1 什么是spark
- 1.2 spark内置模块
第二章 Spark核心机制
第三章 Spark运行模式
第四章案例实操
- 4.1 手写WordCount
- 4.2 打包运行

第一章 Spark概述

1.1 什么是spark

一种基于内存的快速. 通用. 可扩展的大数据分析引擎

1.2 spark内置模块

在这里插入图片描述

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

第二章 Spark核心机制

第三章 Spark运行模式

3.1 Local 模式

3.1.1 概述

运行在一台计算机上的模式, 通常就是用于在本机上练手和测试.
可以通过以下集中方式设置Master

local : 所有计算都运行在一个线程中
local[k] : 指定使用k个线程计算
local[*] : 按照本机cpu最后cores 来设置线程数

3.1.2 安装使用

上传spark安装包解压即可

官方求PI案例

[yanlzh@node11 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

在启动spark-shell时默认是local模式
参数说明

bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]



--master 指定Master的地址，默认为Local
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
--conf: 任意的Spark配置属性， 格式key=value. 如果值包含空格，可以加引号“key=value” 
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统， 如果是 file:// path， 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2个

3.2 Standalone 模式

3.2.1 概述

构建一个由Master + Worker构成的Spark集群, Spark运行在集群中

在这里插入图片描述

3.2.2 安装使用

修改spark中slaves文件

node11
node12
node13

修改spark-env.sh

SPARK_MASTER_HOST=node11
SPARK_MASTER_PORT=7077
export JAVA_HOME=/opt/module/jdk_1.8

分发spark包
启动spark集群

[yanlzh@node11 spark]$ sbin/start-all.sh

执行官方求PI案例

[yanlzh@node11 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node11:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

以standalone模式启动spark-shell

/opt/module/spark/bin/spark-shell \
--master spark://node11:7077 \
--executor-memory 1g \
--total-executor-cores 2

3.3 YARN 模式

3.3.1 概述

Spark客户端直接连接YARN, 不需要额外构建Spark集群.
有yarn-client 和 yarn-cluster两种模式, 主要区别是: Driver程序的运行节点

yarn-client: Driver程序运行在客户端, 适用于交互,调试, 希望立即看到app的输出
yarn-cluster: Driver程序运行在由 RM 启动的ApplicationMaster,适用于生产环境

在这里插入图片描述

3.3.2 安装使用

修改yarn-site.xml文件

 		<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
        </property>
        <!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property>

修改spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

分发配置文件

[yanlzh@node11 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[yanlzh@node11 conf]$ xsync spark-env.sh

执行官方求PI程序

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

3.4 几种模式对比

模式	Spark安装机器数	需启动的进程	所属者
Local	1	无	Spark
Standalone	3	Master和Worker	Spark
YARN	1	YARN和HDFS	Hadoop

第四章案例实操

Spark Shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。

4.1 手写WordCount

object WorkdCount{
	def main (args: Arrays[String]) : Unit = {
		val conf = new SparkConf().setAppName("WC")
		val sc = new SparkContext(conf)
		sc.textFile(args(0))
		  .flatMap(_.split("\t"))
		  .map((_,1))
		  .reduceByKey(_+_,1)
		  .sortBy(_._2, false)
		  .saveAsTextFile(args(1))
		sc.stop
	} 
}

4.2 打包运行

bin/spark-submit \
--class WordCount \
--master spark://node11:7077 \
WordCount.jar \
/word.txt \
/out

YanLzh_MAlone

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
0801-Spark基础解析

0801-Spark基础解析第一章 Spark概述1.1 什么是spark1.2 spark内置模块第二章 Spark核心机制第三章 Spark运行模式3.1 Local 模式3.1.1 概述3.1.2 安装使用3.2 Standalone 模式3.2.1 概述3.2.2 安装使用3.3 YARN 模式3.3.1 概述3.3.2 安装使用3.4 几种模式对比第四章案例实操4.1 手写WordCo...
复制链接

扫一扫