Spark3.0.0 环境安装

最新推荐文章于 2024-08-20 00:30:00 发布

奔向大数据的凡小王

最新推荐文章于 2024-08-20 00:30:00 发布

阅读量859

点赞数

文章标签： spark scala big data

本文链接：https://blog.csdn.net/weixin_39561762/article/details/121001599

版权

1. Spark概述

1.1 什么是Spark

Spark是一种基于内存的快速、通用、可扩展的大数据分析框架。

1.2 Hadoop和Spark

Hadoop：一次性计算框架，基于磁盘，不适合迭代式计算。框架在处理数据的时候，会冲存储设备将数据读取出来，进行逻辑处理，然后将处理结果重新存储到介质中。
Spark：基于内存，适合迭代式计算，任务启动快，但内存会有限制。

1.3 Spark核心模块

Spark Core：提供了丰富的API，供其他模块使用。
Spark Streaming：Spark提供的流式计算组件。
Spark SQL：用于调用HIve和关系型数据库的组件。
Spark MLlib：机器学习
Spark GraphX：面向图形计算提供的框架和算法库。

2. 快速上手

自行安装环境

Scala：2.12.11
Spark：3.0.0

2.1 项目目录结构

spark-learning
	-- spark-core

2.2 实现WordCount三种方式

第一种


import org.apache.spark.{SparkConf, SparkContext}

object Spark01_WordCount {

  def main(args: Array[String]): Unit = {
    // 1. 创建连接
    val sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(sparkConf)
    // 2. 执行业务逻辑
    val lines = sc.textFile("datas")

    // 将单词扁平化
    val words = lines.flatMap(_.split(" "))

    // 将单词进行分组
    val wordGroup = words.groupBy(word => word)

    val value = wordGroup.map {
      case (word, list) =>
        (word, list.size)
    }

    // 打印
    value.foreach(println)

    // 3. 关闭连接

    sc.stop
  }

}

第二种


import org.apache.spark.{SparkConf, SparkContext}

object Spark02_WordCount {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(sparkConf)
    val lines = sc.textFile("datas")

    val words = lines.flatMap(_.split(" "))

    val wordToOne = words.map(
      word => (word, 1)
    )

    val wordGroup = wordToOne.groupBy(
      t => t._1
    )

    val value = wordGroup.map {
      case (word, list) =>
        list.reduce(
          (t1, t2) => {
            (t1._1, t2._2 + t1._2)
          }
        )
    }

    // 打印
    value.foreach(println)

    // 3. 关闭连接

    sc.stop
  }

}

第三种


import org.apache.spark.{SparkConf, SparkContext}

object Spark03_WordCount {

  def main(args: Array[String]): Unit = {
    // 1. 创建连接
    val sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(sparkConf)
    // 2. 执行业务逻辑
    val lines = sc.textFile("datas")

    // 将单词扁平化
    val words = lines.flatMap(_.split(" "))

    // 将单词进行分组
    val wordGroup = words.map(
      word => (word, 1)
    )

    val value = wordGroup.reduceByKey(_ + _)

    // 打印
    value.foreach(println)

    // 3. 关闭连接

    sc.stop
  }

}

3. Spark运行环境

由于之前有配置Hadoop环境，这里就不再赘述Hadoop的相关配置了。

3.1 Local环境

不需要借助任何其他节点就可以运行的环境就是本地环境，单独在idea运行的是开发环境。

3.1.1 环境安装

# 解压
[hadoop@hadoop102 module]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
# 重命名
[hadoop@hadoop102 module]$ cd /opt/module/
[hadoop@hadoop102 module]$ mv spark-3.0.0-bin-hadoop3.2/ spark-local

3.1.2 测试是否安装成功

出现下面这个界面表示安装成功。

[hadoop@hadoop102 spark-local]$ bin/spark-shell 
21/10/18 13:44:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://hadoop102:4040
Spark context available as 'sc' (master = local[*], app id = local-1634535874212).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0
      /_/
         
Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_212)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

3.1.3 提交作业

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples/jars/spark-examples_2.12-3.0.0.jar 10

3.2 Standalone模式

独立部署模式。体现了经典的主从模式。

集群规划

	hadoop102	hadoop103	Hadoop104
Spark	Worker、Matser	Worker	Worker

3.2.1 环境安装

# 解压
[hadoop@hadoop102 spark]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
# 重命名
[hadoop@hadoop102 module]$ cd /opt/module/
[hadoop@hadoop102 module]$ mv spark-3.0.0-bin-hadoop3.2/ spark-standalone

3.2.2 配置

# 重命名
[hadoop@hadoop102 conf]$ mv slaves.template slaves
# 配置slaves
[hadoop@hadoop102 conf]$ vim slaves 
hadoop102
hadoop103
hadoop104

# 重命名
[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

# 添加配置
export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

3.2.3 分发

[hadoop@hadoop102 conf]$ xsync /opt/module/spark-standalone/

3.2.4 启动服务

这里有个问题就是我之前安装的spark程序配置了环境变量，因此在启动服务的时候就只能启动原来目录下的spark程序，看了日志之后发现spark_home不对，需注释掉原来的配置就可以了。

[hadoop@hadoop102 spark-standalone]$ sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /opt/module/spark-standalone/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop102.out
hadoop102: starting org.apache.spark.deploy.worker.Worker, logging to /opt/module/spark-standalone/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop102.out
hadoop104: starting org.apache.spark.deploy.worker.Worker, logging to /opt/module/spark-standalone/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop104.out
hadoop103: starting org.apache.spark.deploy.worker.Worker, logging to /opt/module/spark-standalone/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop103.out
[hadoop@hadoop102 spark-standalone]$ xcall.sh  jps
============hadoop102================
1700 Jps
1560 Master
1644 Worker
============hadoop103================
1249 Worker
1301 Jps
============hadoop104================
1249 Jps
1195 Worker

3.2.5 查看web页面

http://hadoop102:8080/

3.2.6 提交作业

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop102:7077 ./examples/jars/spark-examples_2.12-3.0.0.jar 10

class：Spark程序中包含主程序的类
master：Spark 用来指定执行模式 local、master（spark://hadoop102:7077）、yarn
Executor-memory 1G：指定每个executor可用内存
Total-executors-core 2：指定所有executor可用CPU核数
application-jar：打包好的应用jar，此参数的名字可以不写
application- arguments：传递给main方法的参数

3.2.7 配置历史服务

# 重命名配置文件
[hadoop@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf
# 添加内容
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:8020/spark-log

# 启动hdfs
[hadoop@hadoop102 conf]$ start-dfs.sh 
# 创建目录
[hadoop@hadoop102 conf]$ hadoop fs -mkdir /spark-log

# 修改spark-env.sh
[hadoop@hadoop102 spark-standalone]$ vim conf/spark-env.sh
# history server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/spark-log
-Dspark.history.retainedApplications=30"

# 重新启动服务
[hadoop@hadoop102 spark-standalone]$ sbin/stop-all.sh 
[hadoop@hadoop102 spark-standalone]$ sbin/start-all.sh 
[hadoop@hadoop102 spark-standalone]$ sbin/start-history-server.sh

# 访问web历史服务
http://hadoop102:18080/

3.2.8 配置高可用（HA）

# 修改配置文件
[hadoop@hadoop102 spark-standalone]$ vim conf/spark-env.sh 
# 注释掉下面两行
# SPARK_MASTER_HOST=hadoop102
# SPARK_MASTER_PORT=7077

# 增加下面配置
export SPARK_MASTER_WEBUI_PORT=8899
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104
-Dspark.deploy.zookeeper.dir=/spark"
# 分发
[hadoop@hadoop102 spark-standalone]$ xsync conf/

# 启动zk
[hadoop@hadoop102 spark-standalone]$ zk.sh start

# 重启服务
[hadoop@hadoop102 spark-standalone]$ sbin/stop-all.sh
[hadoop@hadoop102 spark-standalone]$ sbin/start-all.sh 
[hadoop@hadoop102 spark-standalone]$ sbin/stop-history-server.sh 
[hadoop@hadoop102 spark-standalone]$ sbin/start-history-server.sh 
# hadoop103 启动master
[hadoop@hadoop103 spark-standalone]$ sbin/start-master.sh

# 查看两个master服务状态，一个active、一个standby
http://hadoop103:8899/
http://hadoop102:8899/

3.3 Yarn模式

Spark框架在Standalone模式下自身提供计算资源，无需与其他框架整合，降低了耦合性，但是Spark是计算框架，不是资源调度框架，所以提供资源调度并不是他的强项，所以还是需要跟其他框架整合比较好一些。国内更多的使用yarn模式，国外的更多使用mesos。

3.3.1 安装

# 解压
[hadoop@hadoop102 spark]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
# 重命名
[hadoop@hadoop102 spark]$ cd /opt/module/
[hadoop@hadoop102 module]$ mv spark-3.0.0-bin-hadoop3.2/ spark-yarn

3.3.2 配置

# 重命名
[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

# 添加内容
export JAVA_HOME=/opt/module/jdk1.8.0_212
export HADOOP_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

3.3.3 启动服务

这里不需要去启动服务器，只需要启动Hdfs、Yarn即可。

[hadoop@hadoop102 spark-yarn]$ sbin/start-all.sh

3.3.4 提交任务

[hadoop@hadoop102 spark-yarn]$ bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.0.jar 10

3.3.5 配置历史服务

# 修改配置文件
[hadoop@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf
# 添加内容
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:8020/spark-log

# 修改spark-env.sh
[hadoop@hadoop102 conf]$ vim spark-env.sh 
# history server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/spark-log
-Dspark.history.retainedApplications=30"

# 重新提交任务
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.0.0.jar 10

# 查看历史服务器
http://hadoop102:18080/
# 查看yarn任务提交
http://hadoop103:8088/cluster

3.3.6 Yarn的两种模式

Client：用于测试，由于Driver运行在本地客户端，负责调度application，与yarn集群交互会产生大量的网络通信，从而导致网卡流量激增。好处在于可以看到日志，便于调试。
Cluster：用于生产，因为Driver运行在NodeManager，没有网卡流量激增的情况，但由于日志都在服务器上，所以查看日志比较困难，需要到服务器上去看。

所以在服务器上只需要开启一种模式即可，不需要开启两种，会出现资源竞争的问题。