Spark利用(idea+maven+scala)创建wordcount打包jar并在spark on yarn上运行——Spark的开发

今天的你不付昨天的辛苦,今天的辛苦定会拥抱明日的幸福,
每一次的成长,都要给自己以鼓励,每一次的突破,都给自己以信心,万花丛中我不是最美,但我有我的自信
————————————送给一直努力的你
今天的学习:
Spark利用(idea+maven+scala)创建wordcount打包jar并在spark on yarn上运行——Spark的开发
生产中就是这么玩的:
一:我们先用 idea+maven+scala创建wordcount

package g5.learning

import java.net.URI
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}
object LogServerScala {
  def main(args: Array[String]): Unit = {
    val sparkConf = new  SparkConf()
     // .setMaster("local[2]")
//      .setAppName("LogServerScala")
    //这里不能写本地,把文件写死了
    val sc = new SparkContext(sparkConf)
    //输入args(0) 输出:args(1)
    val uri = new URI("hdfs://hadoop001:9000")
    //这个过程是为了在output可以循环使用,如果存在就删掉
    val fileSystem = FileSystem.get(uri,sc.hadoopConfiguration,"hadoop")
    if (fileSystem.exists(new Path(args(1)))){
      fileSystem.delete(new Path(args(1)),true)
    }

      val lines = sc.textFile(args(0))
    lines.map(x => {
      val temp = x.split("\t")
      (temp(0),1L)//(url,count)
    }).reduceByKey(_+_).saveAsTextFile(args(1))

    sc.stop()
    fileSystem.close()//文件系统最后也一定要关掉
  }
}



代码的写入,要注意一些问题,否则后期运行时会报很多错误的
二:打包
View ==>Tool Windows ==> Maven Projects ==> package

在这里插入图片描述
三:
上传jar包
E:\ruozedata_workspace\g5spark1\target\test-classes
你对应的jar路径
re -be上传jar包
在这里插入图片描述

[hadoop@hadoop001 shell]$ vi log-yarn.sh

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
$SPARK_HOME/bin/spark-submit \
--master yarn \
--class g5.learning.LogServerScala \
--name LogServerScala \
/home/hadoop/shell/g5spark1-1.0.jar \
hdfs://hadoop001:9000/logs/input/ hdfs://hadoop001:9000/logs/output1

这里要有相关的配置
四:spark on yarn上运行

[hadoop@hadoop001 shell]$ vi log-yarn.sh
[hadoop@hadoop001 shell]$ ./log-yarn.sh

我们去控制台看一下:

在这里插入图片描述
成功

下面是搭建idea+maven+spark+scala项目的步骤: 1. 安装JDK和Scala环境。 2. 安装Maven。 3. 在IDEA创建Maven项目。 4. 在pom.xml文件中添加依赖,包括SparkScala相关依赖。 5. 在src/main/scala目录下创建Scala文件。 6. 编写Spark程序。 7. 运行程序。 具体步骤如下: 1. 安装JDK和Scala环境 首先需要安装Java开发工具包(JDK),并配置环境变量。然后安装Scala编程语言,同样也需要配置环境变量。可以参考官网的安装说明进行操作。 2. 安装Maven Maven是一个Java项目管理工具,可以自动下载所需的依赖库,并将项目打包Jar包。可以从官网下载Maven,并配置环境变量。 3. 在IDEA创建Maven项目 在IDEA创建Maven项目,选择Scala模板,填写项目名称、groupId、artifactId等信息。IDEA会自动生成pom.xml文件。 4. 在pom.xml文件中添加依赖 在pom.xml文件中添加SparkScala相关依赖,例如: ``` <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version> </dependency> </dependencies> ``` 5. 在src/main/scala目录下创建Scala文件 在src/main/scala目录下创建Scala文件,例如: ``` object Test { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Test").setMaster("local[*]") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.json("data/people.json") df.show() } } ``` 6. 编写Spark程序 在Scala文件中编写Spark程序,例如读取JSON文件并显示数据。 7. 运行程序 在IDEA运行程序,即可看到Spark程序的输出结果。 以上就是搭建idea+maven+spark+scala项目的步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值