学习笔记Spark(五)—— 配置Spark IDEA开发环境

一、配置Spark开发环境

1. 1、配置Spark开发依赖包

  • 单击“+”按钮,选择“Java”选项
  • 在弹出的界面中找到Spark安装包下的“jars”文件夹,事先删除该目录下的commons-compiler-3.0.9.jar
  • 点击“OK”

二、编写Spark WordCount

2.1、SparkContext介绍

任何Spark程序都是以SparkContext对象开始的,因为SparkContext是Spark应用程序的上下文和入口,无论是Scala、Python、R程序,都是通过SparkContext对象的实例来创建RDD。

因此在实际Spark应用程序的开发中,在main方法中需要创建SparkContext对象,作为Spark应用程序的入口,并在Spark程序结束时关闭SparkContext对象。


2.1.1、初始化SparkContext

初始化SparkContext需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数,属性参数是一种键值对的格式,一般可以通过set(属性名,属性设置值)的方法修改属性。其中还包含了设置程序名setAppName、设置运行模式setMaster等方法。

在这里插入图片描述


2.1.2、SparkSession

  • SparkSession 是 spark2.x 引入的新概念,SparkSession 为用户提供统一的切入点
  • SparkConf、SparkContext、SQLContext、HiveContext都已经被封装在SparkSession当中

SparkSession.builder

.master("local")                 \\设置运行模式
.appName("Word Count")     \\设置名称
.config("spark.some.config.option", "some-value") \\设置集群配置
.enableHiveSupport()  \\ 支持读取Hive
.getOrCreate()  

2.2、Spark实现单词计数

2.2.1、spark shell实现

在这里插入图片描述


2.2.2、使用本地模式运行Spark程序

数据:

Hello World Our World
Hello BigData Real BigData
Hello Hadoop Great Hadoop
Hadoop MapReduce

代码:

package demo.spark

import org.apache.spark.sql.SparkSession
object WordCount {
  def main(args:Array[String])={
    val spark = SparkSession.builder().master("local").appName("wordcount").getOrCreate()
    val sc = spark.sparkContext
    val wordCount = sc.textFile("D:\\data\\words.txt")
      .flatMap(x=>x.split(" "))
      .map(x=>(x,1)).reduceByKey(_+_)
    wordCount.foreach(x=>println(x))
  }
}

在这里插入图片描述
改成自己传参(文件路径,分隔符):
在这里插入图片描述


2.3、使用集群模式运行Spark程序

2.3.1、开发环境下运行Spark

  • 点击“Run”→“Edit Configurations…”,弹出对话框如图所示
  • 如果程序有自定义的输入参数,继续点击“Program arguments”参数值设置

2.3.2、提交程序到集群中运行

  • 编写程序,可不设置运行模式

2.3.3、在IDEA中将程序打成jar包

  • 选择“File”→“Project Structure”命令
  • 在弹出的对话框中选择“Artifacts”选项
  • 选择“+”下的“JAR”选项中的“Empty”
  • 在弹出的对话框(下图)中修改“Name”为自定义的JAR包的名字“word”,双击右侧栏工程下的“‘workspace’compile output”,它会转移到左侧,wordspace表示工程名

2.3.4、编译生成Artifact

  • 选择菜单栏中的“Build”→“Build Artifacts”命令
  • 在弹出的方框(右下图)中选择“word” →“build”

在这里插入图片描述

  • 生成Artifact后,在工程目录中会有一个/out目录,可以看到生成的JAR包,如右上图所示
  • 在JAR包处单击右键,在弹出菜单中选择“Show in Explorer”命令,直接到达JAR包路径下
    在这里插入图片描述

2.3.5、上传jar包及相关文件

  • 将JAR包上传到Linux的/opt目录下
  • 将Windows本地的words.txt文件也上传到/opt目录下
  • 将/opt/words.txt上传到HDFS的/user/root下

2.3.6、提交任务

spark-submit提交任务

spark-submit --master<master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
--class <main-class> \
<application-jar> \
application-arguments

参数解释:

--class:应用程序的入口点,指主程序。
--master:指定要连接的集群URL。
--deploy-mode:是否将驱动程序部署在工作节点(cluster)或本地作为外部客户端(client)。
--conf:设置任意Spark配置属性,即允许使用key=value格式设置任意的SparkConf配置选项。
application-jar:包含应用程序和所有依赖关系的捆绑JAR的路径。
application-arguments:传递给主类的main方法的参数。

运行模式
在这里插入图片描述

spark-submit运行示例

1、提交到yarn-cluster集群
在这里插入图片描述

  • - -master设置运行模式为yarn-cluster集群模式
  • - -class设置程序入口,然后设置JAR包路径,输入文件路径,输出文件路径,设置运行结果存储在HDFS

2、提交到spark集群
在这里插入图片描述


2.4、设置应用程序使用的集群资源

2.4.1、park-submit常用的配置项

2.4.2、设置spark-submit提交时的资源配置

设置spark-submit提交单词计数程序时的环境配置,设置运行时所启用的资源

spark-submit --master spark://master:7077 --executor-memory 512m --executor-cores 2 --class demo.spark.WordCount /opt/word.jar /user/root/words.txt " " /user/root/word_ count2

在这里插入图片描述

(浏览器:master:8080查看)

在这里插入图片描述

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Spark是一个开源的大数据处理框架,它提供了高效的数据处理能力和易用的API,支持多种数据处理模式,包括批处理、流处理和机器学习等。Spark的核心是分布式计算引擎,它可以在集群中运行,利用多台计算机的计算能力来处理大规模数据。Spark的优势在于其高效的内存计算和强大的数据处理能力,可以在处理大规模数据时提供更快的计算速度和更高的性能。Spark的生态系统也非常丰富,包括Spark SQL、Spark Streaming、MLlib和GraphX等组件,可以满足不同的数据处理需求。 ### 回答2: Spark是一种大规模数据处理引擎,可以较快地处理大数据。Spark并不是单独的一种工具,而是一系列的工具和库的整合。它具备高效的内存计算功能,能够在数秒或数分钟内完成数据处理任务。 Spark的核心是分布式计算引擎,通过将数据分成多个部分进行处理,缩短了计算时间。Spark基于RDD(弹性分布式数据集)进行数据处理,RDD是一种可缓存、可重用和容错的数据结构。RDD抽象了数据分布和分区,提供了简单的API。 Spark的架构包括四个组件:Driver、Cluster manager、Worker、和 Executor。其中Driver是Spark应用程序的主程序,Cluster manager通过Master节点来管理各个Worker节点,Worker节点包含了整个Spark集群的计算资源,Executor执行计算任务。 Spark支持多种编程语言,包括Scala、Java、Python和R。其中Scala是Spark的主要语言,因为它能够将Spark的API最大程度地利用。 除了分布式计算引擎外,Spark还提供了多种库和工具,包括Spark SQL、Spark Streaming、MLlib和GraphX。Spark SQL是一种用于结构化数据处理的库,能够使用SQL语句进行数据查询;Spark Streaming可以实时处理数据流,包括文本和图像等;MLlib是实现了多种机器学习算法的库,包括分类、回归、聚类和协同过滤;GraphX可以用于图计算和图分析领域。 总之,Spark是一种强大的大数据处理引擎,能够通过分布式计算架构实现快速的数据处理。它提供了多种语言支持和众多的库和工具,方便用户处理各类数据。 ### 回答3: Spark是一款开源的、分布式的大数据处理框架,它的出现将大数据处理的速度提升到了一个全新的水平。Spark的特点在于它的内存计算引擎,这使得Spark的运行速度比传统的MapReduce处理速度要快很多,同时也比传统的Hadoop更加灵活。 Spark可以用于处理各种大数据应用场景,包括批处理、交互式查询、实时流处理等等。同时,Spark的生态系统非常丰富,有众多的开源库和工具可以使用,例如:Spark SQL、Spark Streaming、GraphX、MLlib等等。 Spark的运行环境需要一个集群,因为Spark是分布式的,它可以通过在集群中多个节点上并行执行任务来提升处理速度,而且Spark支持多种集群管理和资源调度工具,例如:Apache Mesos、Hadoop YARN、Spark自带的资源调度程序等等。 Spark的编程接口非常灵活,可以使用Scala、Java、Python等多种编程语言来编写Spark程序。无论是使用哪种编程语言,Spark都提供了相应的API和工具,例如:Spark SQL、Spark Streaming等。 总之,Spark是一个非常强大的大数据处理框架,它的出现是对传统的Hadoop框架的一种补充和升级,不仅可以处理海量的数据,而且可以提供更快速的数据处理速度和更强大的数据处理能力。因此,Spark已经成为现代大数据处理和机器学习领域中非常重要的工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

别呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值