0801-Spark基础解析

第一章 Spark概述

1.1 什么是spark

一种基于内存的快速. 通用. 可扩展的大数据分析引擎

1.2 spark内置模块

在这里插入图片描述

  1. Spark Core:实现了Spark的基本功能,包含任务调度内存管理错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义
  2. Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。
  3. Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。
  4. Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
  5. 集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度 器,叫作独立调度器

第二章 Spark核心机制

第三章 Spark运行模式

3.1 Local 模式

3.1.1 概述

运行在一台计算机上的模式, 通常就是用于在本机上练手和测试.
可以通过以下集中方式设置Master

  1. local : 所有计算都运行在一个线程中
  2. local[k] : 指定使用k个线程计算
  3. local[*] : 按照本机cpu最后cores 来设置线程数

3.1.2 安装使用

上传spark安装包解压即可

  • 官方求PI案例
[yanlzh@node11 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
  • 在启动spark-shell时默认是local模式

  • 参数说明

bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]



--master 指定Master的地址,默认为Local
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
--conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value” 
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2

3.2 Standalone 模式

3.2.1 概述

构建一个由Master + Worker构成的Spark集群, Spark运行在集群中

在这里插入图片描述

3.2.2 安装使用

  1. 修改spark中slaves文件
node11
node12
node13
  1. 修改spark-env.sh
SPARK_MASTER_HOST=node11
SPARK_MASTER_PORT=7077
export JAVA_HOME=/opt/module/jdk_1.8
  1. 分发spark包
  2. 启动spark集群
[yanlzh@node11 spark]$ sbin/start-all.sh
  1. 执行官方求PI案例
[yanlzh@node11 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node11:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
  1. 以standalone模式启动spark-shell
/opt/module/spark/bin/spark-shell \
--master spark://node11:7077 \
--executor-memory 1g \
--total-executor-cores 2

3.3 YARN 模式

3.3.1 概述

Spark客户端直接连接YARN, 不需要额外构建Spark集群.
有yarn-client 和 yarn-cluster两种模式, 主要区别是: Driver程序的运行节点

  1. yarn-client: Driver程序运行在客户端, 适用于交互,调试, 希望立即看到app的输出
  2. yarn-cluster: Driver程序运行在由 RM 启动的ApplicationMaster,适用于生产环境

在这里插入图片描述

在这里插入图片描述

3.3.2 安装使用

  1. 修改yarn-site.xml文件
 		<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
        <property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
        </property>
        <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property>
  1. 修改spark-env.sh
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
  1. 分发配置文件
[yanlzh@node11 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[yanlzh@node11 conf]$ xsync spark-env.sh
  1. 执行官方求PI程序
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

3.4 几种模式对比

模式Spark安装机器数需启动的进程所属者
Local1Spark
Standalone3Master和WorkerSpark
YARN1YARN和HDFSHadoop

第四章 案例实操

Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。

4.1 手写WordCount

object WorkdCount{
	def main (args: Arrays[String]) : Unit = {
		val conf = new SparkConf().setAppName("WC")
		val sc = new SparkContext(conf)
		sc.textFile(args(0))
		  .flatMap(_.split("\t"))
		  .map((_,1))
		  .reduceByKey(_+_,1)
		  .sortBy(_._2, false)
		  .saveAsTextFile(args(1))
		sc.stop
	} 
}

4.2 打包运行

bin/spark-submit \
--class WordCount \
--master spark://node11:7077 \
WordCount.jar \
/word.txt \
/out
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值