Spark学习-DAY3

Spark环境搭建和使用方法

1.安装spark

spark运行在linux环境下,需要与其他环境配合使用(hadoop, Java)

注意:各环境之间需要版本匹配(Spark2.4.0  Java1.8  Hadoop2.7.1)

hadoop安装

 Spark下载

配置Spark的classpath

若需要使用HDFS中的文件,则在使用Spark前需要启动hadoop

Spark部署模式:

  • spark单机模式:hadoop配置伪分布式
  • spark集群模式
    Standalone模式:使用spark自带的集群资源管理器(效率比较低)
    YARN模式:由hadoop的YARN负责调度
    Mesos模式:使用Mesis调度底层cpu资源

2.在pyspark中运行代码

特性:

  • pyspark提供了简单的方式来学习spark API
  • pyspark提供了Python交互式执行环境
  • pyspark可以以实时,交互的方式来分析数据

pyspark命令及常用的参数:

pyspark --master <master-url>

yarn-client:一般在调试程序的时候使用

yarn-cluster:将driver建在集群中的某个节点上,企业产品上线时使用

 3.开发Spark独立应用程序

  • 编写程序
    目的:计算文本文件中包含’a‘的行数和’b‘的行数
    from pyspark import SparkConf, SparkContext
    conf = SparkConf().setMaster("local").setAppName("My App")  # local模式
    sc = SparkContext(conf=conf)  # 生成名为sc的SparkContext
    logFile = "file:///usr/local/spark/README.md"  # 本地文件是file:///
    logData = sc.textFile(logFile, 2).cache()  # 把文本文件加载进来生成RDD,文本文件中的每一行成为 
                                               # RDD中的一个元素
    numAs = logData.filter(lambda line:'a' in line).count()
    numBs = logData.filter(lambda line:'b' in line).count()
    print('Lines with a:%s, Lines with b:%s' % (numsAs, numBs))
    
  • 在命令行执行如下:

  • 也可以通过spark-submit提交

     为了避免其他多余信息对运行结果干扰,可以修改log4j的日志信息显示级别:

 4.Spark集群搭建

步骤:

准备工作:搭建hadoop集群环境->安装Spark->配置环境变量->Spark配置->启动Spark集群->关闭Spark集群

搭建hadoop分布式集群环境:

 Spark+HDFS运行架构

安装步骤:

  • 在Master节点上访问Spark官网下载Spark安装包

    配置

  • 配置slaves文件

    配置spark-env.sh文件

    完成Spark和hadoop的挂接
    说明hadoop相关配置信息目录
    设置spark主节点的IP地址

  • 将Master主机上的/usr/local/spark文件夹复制到各个节点上

  • 在slave01,slave02节点上分别执行下面同样的操作

    基本上集群搭建完毕
  • 在Master节点主机上运行

    在Master节点上启动从节点

    在Master主机测试环境

  • 关闭Master节点

5.在集群上运行Spark应用程序

启动Spark集群

采用独立集群管理器

 2 > &1 | grep "Pi is roughly"表示抓取含有Pi isroughly 3.1415926,其他多余的行不显示

在集群中运行pyspark

用户在独立集群管理Web界面查看应用的运行情况

在Master节点浏览器上运行http://master:8080/

采用Hadoop YARN管理器

 拷贝到浏览器中可以查看执行状态。

在集群中使用pyspark交互式环境运行

 参考:
(林子雨)Spark编程基础(Python版)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark 基础环境是指安装和配置 Spark 所需的软件和硬件环境。Spark 运行需要 Java 环境和 Hadoop 环境,同时也需要配置 Spark 的相关参数,如内存大小、CPU 核数等。在安装和配置好基础环境后,我们才能使用 Spark 进行数据处理和分析。 ### 回答2: Spark是一个快速、可扩展且容错的大数据处理框架,提供了丰富的API和工具,可以处理大规模的数据集。 搭建Spark基础环境包括以下几个步骤: 1. 安装Java:Spark是基于Java开发的,因此首先需要安装Java开发环境。可以从Oracle官网下载并安装适合操作系统的Java版本。 2. 下载Spark:在Apache Spark官网下载最新版本的Spark压缩包,并解压到指定目录。 3. 配置环境变量:将Spark的bin目录添加到系统的环境变量中。这样可以方便地在任意位置运行Spark的命令。 4. 配置Spark集群:如果需要在多台机器上运行Spark应用程序,需要进行集群配置。首先,在每台机器上安装好Java,并将Spark解压到相同的目录。然后,编辑Spark的配置文件,设置集群的主节点和从节点。 5. 验证安装:通过在终端运行spark-shell命令,验证Spark是否正确安装。spark-shell命令会启动一个Scala解释器,并连接到Spark集群。 6. 运行第一个Spark应用程序:编写一个简单的Spark应用程序,如WordCount,用于统计文本文件中单词的个数。将程序保存为Scala文件,并使用spark-submit命令来运行。 以上就是搭建Spark基础环境的主要步骤。搭建好Spark环境后,可以使用Spark提供的丰富API和工具来进行大数据处理和分析,如数据清洗、转换、机器学习等。Spark的功能强大且易于使用,适用于各种大规模数据处理场景。 ### 回答3: Spark是一个快速通用的集群计算系统,它提供了高效的数据处理和分析能力。要运行Spark,我们需要配置和搭建一些基础环境。 首先,我们需要安装Java JDK。Spark运行在Java虚拟机上,因此我们需要安装适当版本的Java开发工具包。通常建议使用Oracle JDK的最新稳定版本,然后设置JAVA_HOME环境变量。 其次,我们需要安装Spark本身。Spark官方网站提供了预编译的二进制发行版,我们可以从网站上下载并解压缩到我们喜欢的位置。然后,我们可以设置SPARK_HOME环境变量,以便在终端窗口中使用Spark命令。 接下来,我们需要选择一个合适的集群管理器来运行Spark应用程序,比如Standalone模式、Hadoop YARN和Apache Mesos等。我们需要根据自己的需求进行选择和配置。例如,在Standalone模式下,我们需要启动一个Spark Master和多个Spark Worker来管理和运行任务。 最后,在运行Spark应用程序之前,我们需要通过编写一个Spark应用程序来使用Spark的功能。Spark提供了Java、Scala和Python等多种编程语言的API。我们可以使用任何一种编程语言来编写应用程序并在Spark上运行。 总之,Spark基础环境搭建包括安装Java JDK、安装Spark本身、选择和配置集群管理器,以及编写Spark应用程序。搭建好这些基础环境后,我们就可以开始使用Spark进行快速、高效的集群计算了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值