pySpark概述及环境搭建(local模式,Stand alone模式(非HA))

一、Apache Spark概述

        (1)Spark定义

        Apache Spark 是用于大规模数据(large-Scala data)处理的统一(unified)分析引擎。其特点是对任意类型的数据进行自定义计算,Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用python、Java、Scala、R以及SQL语言取开发程序计算数据。

        (2)Hadoop与Spark的区别和优缺点
Hadoop与Spark的区别
HadoopSpark
类型基础平台,包含计算、存储、调度纯计算工具(分布式)
场景海量数据批处理(磁盘迭代计算)海量数据的批处理(内存迭代计算、交互式计算)、海量数据流计算
价格对机器要求低对内存有要求、相对较贵
编程范式Map+Redeuce,API较为底层,算法适应性差

RDD组成DAG有向无环图,API较为顶层,方便使用

数据存储结构MapReduce中间计算结果在HDFS磁盘上,延迟大RDD中间运算结果在内存中,延迟小
运行方式Task以进程方式维护,任务启动慢Task以线程方式维护,任务启动快,可批量创建提高并行能力

        Hadoop的基于进程的计算和Spark基于线程方式优缺点

        Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行单位,但缺点是线程之间会有资源竞争。

        (3)Spark的四大特点

        ①速度快:Spark处理数据时,可以将中间处理结果数据存储到内存中;Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成。

        ②易于使用:支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

        ③通用性强:在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,我们可以在一个应用中无缝地使用这些工具库。

        ④多运行方式:Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes(Spark2.3开始支持)上。

        (4)Spark框架模块

         整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib。

        Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运行的基础。Spark Core以RDD为数据抽象,提供Python、Java、Scala、R语言的API,可以编程进行海量离线数据批处理计算。
        SparkSQL:基于SparkCore之上,提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理,SparkSQL本身针对离线计算场景。同时基于SparkSQL,Spark提供了StructuredStreaming模块,可以以SparkSQL为基础,进行数据的流式计算。
        SparkStreaming:以SparkCore为基础,提供数据的流式计算功能。
        MLlib:以SparkCore为基础,进行机器学习计算,内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。
        GraphX:以SparkCore为基础,进行图计算,提供了大量的图计算API,方便用于以分布式计算模式进行图计算。

        (5)spark的运行模式

        local模式:local模式就是以一个独立进程配合其内部线程来提供完成spark运行时环境,local模式可以提供spark-shell/pyspark/spark-submit等来启动。

        Standalone模式:Standalone模式是spark自带的一种集群模式,不同于local模式启动多进程来模拟集群的环境,Standalone模式是真实的在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。

        spark on Yarn模式:这是一种很有前景的部署模式。但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode)。这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在YARN计划中了。 spark on yarn 的支持两种模式:

        (1) yarn-cluster:适用于生产环境。

        (2) yarn-client:适用于交互、调试,希望立即看到app的输出。

        yarn-cluster和yarn-client的区别在于yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceManager请求资源,获取到资源后,告诉NodeManager为其启动container。yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你需要用于生产环境,那么请选择yarn-cluster;而如果你仅仅是Debug程序,可以选择yarn-client。

        spark on mesos模式:这是很多公司采用的模式,官方推荐这种模式(当然,原因之一是血缘关系)。正是由于Spark开发之初就考虑到支持Mesos,因此,目前而言,Spark运行在Mesos上会比运行在YARN上更加灵活,更加自然。目前在Spark On Mesos环境中,用户可选择两种调度模式之一运行自己的应用程序(可参考Andrew Xia的“Mesos Scheduling Mode on Spark”):

  1. 粗粒度模式(Coarse-grained Mode):每个应用程序的运行环境由一个Dirver和若干个Executor组成,其中,每个Executor占用若干资源,内部可运行多个Task(对应多少个“slot”)。应用程序的各个任务正式运行之前,需要将运行环境中的资源全部申请好,且运行过程中要一直占用这些资源,即使不用,最后程序运行结束后,回收这些资源。举个例子,比如你提交应用程序时,指定使用5个executor运行你的应用程序,每个executor占用5GB内存和5个CPU,每个executor内部设置了5个slot,则Mesos需要先为executor分配资源并启动它们,之后开始调度任务。另外,在程序运行过程中,mesos的master和slave并不知道executor内部各个task的运行情况,executor直接将任务状态通过内部的通信机制汇报给Driver,从一定程度上可以认为,每个应用程序利用mesos搭建了一个虚拟集群自己使用。

  2. 细粒度模式(Fine-grained Mode):鉴于粗粒度模式会造成大量资源浪费,Spark On Mesos还提供了另外一种调度模式:细粒度模式,这种模式类似于现在的云计算,思想是按需分配。与粗粒度模式一样,应用程序启动时,先会启动executor,但每个executor占用资源仅仅是自己运行所需的资源,不需要考虑将来要运行的任务,之后,mesos会为每个executor动态分配资源,每分配一些,便可以运行一个新任务,单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master,便于更加细粒度管理和容错,这种调度模式类似于MapReduce调度模式,每个Task完全独立,优点是便于资源控制和隔离,但缺点也很明显,短作业运行延迟大。

二、Saprk安装配置(local模式)

        链接:https://pan.baidu.com/s/14NH-Zlo-b70C6Q8yalUBDw 
提取码:1111 

        1.安装anaconda

        (1)将anaconda文件上传,然后执行文件

        命令:sh anaconda上传路径

        (2)一直点击回车,直到出现yes/no选项,然后输入yes

        (3)确定安装路径,在此输入想要安装的路径,然后回车等待安装完成。

        (4)初始化anaconda,在弹出选项输入yes

        (5)初始化结束就安装完成了,退出终端连接,重新连接后出现base表示安装成功

        (6)将anaconda下载源改为国内源

        在新文件中添加

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
 

        (7)验证python能否使用

        输入python

        2.创建pyspark虚拟环境

        (1)创建环境,将python版本设置为3.9

        命令:conda create -n pyspark python=3.9

        (2)切换到pyspark虚拟环境

        conda activate pyspark

        3.spark(local)环境部署

        (1)上传安装包并解压

        (2)构建软连接

        命令:ln -s /export/servers/spark-3.2.0-bin-hadoop3.2/ /export/servers/spark

        (3)配置spark文件

                1.配置环境变量

        #spark环境变量
        export SPARK_HOME=/export/servers/spark
        export PATH=$SPARK_HOME/bin:$PATH
        export PYSPARK_PYTHON=/export/servers/anaconda3/envs/pyspark/bin/python3.9
        export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

                2.配置.bashrc文件

                3.测试pyspark

                进入spark的bin目录,执行命令  ./pyspark

                执行代码:sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

三、Spark安装配置(Stand alone模式)

        1.安装anaconda并创建虚拟环境(所有机器)

         (1)将anaconda文件上传,然后执行文件

        命令:sh anaconda上传路径

        (2)一直点击回车,直到出现yes/no选项,然后输入yes

        (3)确定安装路径,在此输入想要安装的路径,然后回车等待安装完成。

        (4)初始化anaconda,在弹出选项输入yes

        (5)初始化结束就安装完成了,退出终端连接,重新连接后出现base表示安装成功

        (6)将anaconda下载源改为国内源

        在新文件中添加

        channels:
          - defaults
        show_channel_urls: true
        default_channels:
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
          - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
        custom_channels:
          conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
          simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

        (7)验证python能否使用

        输入python

        (8)创建pyspark虚拟环境

        创建环境,将python版本设置为3.9

        命令:conda create -n pyspark python=3.9

        切换到pyspark虚拟环境

        conda activate pyspark

        2.配置环境变量(所有机器)

                1.配置环境变量

        #spark环境变量
        export SPARK_HOME=/export/servers/spark
        export PATH=$SPARK_HOME/bin:$PATH
        export PYSPARK_PYTHON=/export/servers/anaconda3/envs/pyspark/bin/python3.9
        export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

                2.配置.bashrc文件

        3.配置文件(主节点)

        配置文件路径:spark/conf

        (1)配置workers.template文件

                添加主机名称

        (2)配置spark-env.sh.template文件            

        ## 设置JAVA安装目录
        JAVA_HOME=/export/servers/jdk

        ## HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
        HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop
        YARN_CONF_DIR=/export/servers/hadoop/etc/hadoop

        ## 指定spark老大Master的IP和提交任务的通信端口
        # 告知Spark的master运行在哪个机器上
        export SPARK_MASTER_HOST=spark-node1
        # 告知sparkmaster的通讯端口
        export SPARK_MASTER_PORT=7077
        # 告知spark master的 webui端口
        SPARK_MASTER_WEBUI_PORT=8080

        # worker cpu可用核数
        SPARK_WORKER_CORES=1
        # worker可用内存
        SPARK_WORKER_MEMORY=1g

        # worker的工作通讯地址
        SPARK_WORKER_PORT=7078
        # worker的 webui地址
        SPARK_WORKER_WEBUI_PORT=8081

        ## 设置历史服务器
        # 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
        SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://spark-node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

        (3)在HDFS创建存放Spark日志文件夹

        hadoop fs -mkdir /sparklog
        hadoop fs -chmod 777 /sparklog

        (4)配置 spark-defaults.conf.template文件

        # 开启spark的日期记录功能
        spark.eventLog.enabled     true
        # 设置spark日志记录的路径
        spark.eventLog.dir     hdfs://node1:8020/sparklog/ 
        # 设置spark日志是否启动压缩
        spark.eventLog.compress     true

        (5)配置log4j.properties.template文件

        (6)分发文件并构建软链接

        scp -r /export/servers/spark-3.2.0-bin-hadoop3.2 spark-node2:/export/servers/

         scp -r /export/servers/spark-3.2.0-bin-hadoop3.2 spark-node3:/export/servers/

         ln -s spark-3.2.0-bin-hadoop3.2/ spark

        4.启动spark服务(在spark目录执行)

       (1)启动历史服务器

        sbin/start-history-server.sh 

        (2)启动spark集群

        sbin/start-all.sh

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吗喽也是命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值