pySpark概述及环境搭建（local模式，Stand alone模式（非HA））

吗喽也是命

已于 2023-09-16 16:40:31 修改

阅读量1.3k

点赞数

分类专栏：大数据文章标签： spark 大数据分布式

于 2023-09-12 10:58:05 首次发布

本文链接：https://blog.csdn.net/2202_75347029/article/details/132781239

版权

大数据专栏收录该内容

41 篇文章 10 订阅

订阅专栏

一、Apache Spark概述

（1）Spark定义

Apache Spark 是用于大规模数据（large-Scala data）处理的统一（unified）分析引擎。其特点是对任意类型的数据进行自定义计算，Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用python、Java、Scala、R以及SQL语言取开发程序计算数据。

（2）Hadoop与Spark的区别和优缺点

Hadoop与Spark的区别
	Hadoop	Spark
类型	基础平台，包含计算、存储、调度	纯计算工具（分布式）
场景	海量数据批处理（磁盘迭代计算）	海量数据的批处理（内存迭代计算、交互式计算）、海量数据流计算
价格	对机器要求低	对内存有要求、相对较贵
编程范式	Map+Redeuce，API较为底层，算法适应性差	RDD组成DAG有向无环图，API较为顶层，方便使用
数据存储结构	MapReduce中间计算结果在HDFS磁盘上，延迟大	RDD中间运算结果在内存中，延迟小
运行方式	Task以进程方式维护，任务启动慢	Task以线程方式维护，任务启动快，可批量创建提高并行能力

Hadoop的基于进程的计算和Spark基于线程方式优缺点

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中，造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率，Spark采用了线程的最小的执行单位，但缺点是线程之间会有资源竞争。

（3）Spark的四大特点

①速度快：Spark处理数据时，可以将中间处理结果数据存储到内存中；Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成。

②易于使用：支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

③通用性强：在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，我们可以在一个应用中无缝地使用这些工具库。

④多运行方式：Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes（Spark2.3开始支持）上。

（4）Spark框架模块

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib。

        Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Python、Java、Scala、R语言的API，可以编程进行海量离线数据批处理计算。
        SparkSQL：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparkSQL本身针对离线计算场景。同时基于SparkSQL，Spark提供了StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流式计算。
        SparkStreaming：以SparkCore为基础，提供数据的流式计算功能。
        MLlib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。
        GraphX：以SparkCore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算。

（5）spark的运行模式

local模式：local模式就是以一个独立进程配合其内部线程来提供完成spark运行时环境，local模式可以提供spark-shell/pyspark/spark-submit等来启动。

Standalone模式：Standalone模式是spark自带的一种集群模式，不同于local模式启动多进程来模拟集群的环境，Standalone模式是真实的在多个机器之间搭建Spark集群的环境，完全可以利用该模式搭建多机器集群，用于实际的大数据处理。

spark on Yarn模式：这是一种很有前景的部署模式。但限于YARN自身的发展，目前仅支持粗粒度模式（Coarse-grained Mode）。这是由于YARN上的Container资源是不可以动态伸缩的，一旦Container启动之后，可使用的资源不能再发生变化，不过这个已经在YARN计划中了。 spark on yarn 的支持两种模式：

(1) yarn-cluster：适用于生产环境。

(2) yarn-client：适用于交互、调试，希望立即看到app的输出。

yarn-cluster和yarn-client的区别在于yarn appMaster，每个yarn app实例有一个appMaster进程，是为app启动的第一个container；负责从ResourceManager请求资源，获取到资源后，告诉NodeManager为其启动container。yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你需要用于生产环境，那么请选择yarn-cluster；而如果你仅仅是Debug程序，可以选择yarn-client。

spark on mesos模式：这是很多公司采用的模式，官方推荐这种模式（当然，原因之一是血缘关系）。正是由于Spark开发之初就考虑到支持Mesos，因此，目前而言，Spark运行在Mesos上会比运行在YARN上更加灵活，更加自然。目前在Spark On Mesos环境中，用户可选择两种调度模式之一运行自己的应用程序（可参考Andrew Xia的“Mesos Scheduling Mode on Spark”）：

粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。举个例子，比如你提交应用程序时，指定使用5个executor运行你的应用程序，每个executor占用5GB内存和5个CPU，每个executor内部设置了5个slot，则Mesos需要先为executor分配资源并启动它们，之后开始调度任务。另外，在程序运行过程中，mesos的master和slave并不知道executor内部各个task的运行情况，executor直接将任务状态通过内部的通信机制汇报给Driver，从一定程度上可以认为，每个应用程序利用mesos搭建了一个虚拟集群自己使用。
细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。与粗粒度模式一样，应用程序启动时，先会启动executor，但每个executor占用资源仅仅是自己运行所需的资源，不需要考虑将来要运行的任务，之后，mesos会为每个executor动态分配资源，每分配一些，便可以运行一个新任务，单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master，便于更加细粒度管理和容错，这种调度模式类似于MapReduce调度模式，每个Task完全独立，优点是便于资源控制和隔离，但缺点也很明显，短作业运行延迟大。

二、Saprk安装配置（local模式）

链接：https://pan.baidu.com/s/14NH-Zlo-b70C6Q8yalUBDw
提取码：1111

1.安装anaconda

（1）将anaconda文件上传，然后执行文件

命令：sh anaconda上传路径

（2）一直点击回车，直到出现yes/no选项，然后输入yes

（3）确定安装路径，在此输入想要安装的路径，然后回车等待安装完成。

（4）初始化anaconda，在弹出选项输入yes

（5）初始化结束就安装完成了，退出终端连接，重新连接后出现base表示安装成功

（6）将anaconda下载源改为国内源

在新文件中添加

channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

（7）验证python能否使用

输入python

2.创建pyspark虚拟环境

（1）创建环境，将python版本设置为3.9

命令：conda create -n pyspark python=3.9

（2）切换到pyspark虚拟环境

conda activate pyspark

3.spark（local）环境部署

（1）上传安装包并解压

(2)构建软连接

命令：ln -s /export/servers/spark-3.2.0-bin-hadoop3.2/ /export/servers/spark

（3）配置spark文件

1.配置环境变量

        #spark环境变量
        export SPARK_HOME=/export/servers/spark
        export PATH=$SPARK_HOME/bin:$PATH
        export PYSPARK_PYTHON=/export/servers/anaconda3/envs/pyspark/bin/python3.9
        export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

2.配置.bashrc文件

3.测试pyspark

进入spark的bin目录，执行命令 ./pyspark

执行代码：sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

三、Spark安装配置（Stand alone模式）

1.安装anaconda并创建虚拟环境（所有机器）

(1）将anaconda文件上传，然后执行文件

命令：sh anaconda上传路径

（2）一直点击回车，直到出现yes/no选项，然后输入yes

（3）确定安装路径，在此输入想要安装的路径，然后回车等待安装完成。

（4）初始化anaconda，在弹出选项输入yes

（5）初始化结束就安装完成了，退出终端连接，重新连接后出现base表示安装成功

（6）将anaconda下载源改为国内源

在新文件中添加

        channels:
          - defaults
        show_channel_urls: true
        default_channels:
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
        custom_channels:
          conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

（7）验证python能否使用

输入python

（8）创建pyspark虚拟环境

创建环境，将python版本设置为3.9

命令：conda create -n pyspark python=3.9

切换到pyspark虚拟环境

conda activate pyspark

2.配置环境变量（所有机器）

1.配置环境变量

2.配置.bashrc文件

3.配置文件（主节点）

配置文件路径：spark/conf

（1）配置workers.template文件

添加主机名称

（2）配置spark-env.sh.template文件

## 设置JAVA安装目录
JAVA_HOME=/export/servers/jdk

        ## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
        HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop
        YARN_CONF_DIR=/export/servers/hadoop/etc/hadoop

        ## 指定spark老大Master的IP和提交任务的通信端口
        # 告知Spark的master运行在哪个机器上
        export SPARK_MASTER_HOST=spark-node1
        # 告知sparkmaster的通讯端口
        export SPARK_MASTER_PORT=7077
        # 告知spark master的 webui端口
        SPARK_MASTER_WEBUI_PORT=8080

        # worker cpu可用核数
        SPARK_WORKER_CORES=1
        # worker可用内存
        SPARK_WORKER_MEMORY=1g

        # worker的工作通讯地址
        SPARK_WORKER_PORT=7078
        # worker的 webui地址
        SPARK_WORKER_WEBUI_PORT=8081

        ## 设置历史服务器
        # 配置的意思是将spark程序运行的历史日志存到hdfs的/sparklog文件夹中
        SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://spark-node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

（3）在HDFS创建存放Spark日志文件夹

hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog

（4）配置 spark-defaults.conf.template文件

        # 开启spark的日期记录功能
        spark.eventLog.enabled    true
        # 设置spark日志记录的路径
        spark.eventLog.dir   hdfs://node1:8020/sparklog/
        # 设置spark日志是否启动压缩
        spark.eventLog.compress    true

（5）配置log4j.properties.template文件

（6）分发文件并构建软链接

scp -r /export/servers/spark-3.2.0-bin-hadoop3.2 spark-node2:/export/servers/

scp -r /export/servers/spark-3.2.0-bin-hadoop3.2 spark-node3:/export/servers/

ln -s spark-3.2.0-bin-hadoop3.2/ spark

4.启动spark服务（在spark目录执行）

（1）启动历史服务器

sbin/start-history-server.sh

（2）启动spark集群

sbin/start-all.sh

吗喽也是命

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
pySpark概述及环境搭建（local模式，Stand alone模式（非HA））

Apache Spark 是用于大规模数据（large-Scala data）处理的统一（unified）分析引擎。其特点是对任意类型的数据进行自定义计算结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用python、Java、Scala、R以及SQL语言取开发程序计算数据。
复制链接

扫一扫