Spark的如何打jar包

Spark的如何打jar包

配置文件

在这里插入图片描述

path:hdfs://192.168.XXX.100:9000/sparkfile/hello.txt
savepath:hdfs://192.168.XXX.100:9000/sparkout/helloworld

代码实例

注意代码中 配置文件调用的路径为实际安排配置文件存放路径

package nj.zb.kb11

import java.io.FileInputStream
import java.util.Properties

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object HelloWord {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("sparkreadcsv")
    val sc = SparkContext.getOrCreate(conf)

    val properties = new Properties()
    properties.load(new FileInputStream("/root/software/test.properties"))
    //因为是测试实例,这里直接写了配置文件将要放的路径
    val path: String = properties.getProperty("path")
    val savepath: String = properties.getProperty("savepath")


//    val rdd1: RDD[String] = sc.textFile("hdfs://192.168.146.222:9000/kb11/hello.txt")
    val rdd1: RDD[String] = sc.textFile(path)
    rdd1.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect().foreach(println)
    rdd1.saveAsTextFile(savepath)
  }
}

生成jar包

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果同一个再次打的话,可以选择 Rebuild

删除jar包中的加密文件

用解压软件打开jar包后,进入META-INF路径下,删除对应的DUMMY.DSA和DUMMY.SF文件,否则无法调用
在这里插入图片描述

jar包调用

将jar包上传到linux系统
将配置文件上传到linux系统
将需要实例文件hello.txt上传到HDFS对应路径

在spark中输入命令代码

spark-submit  
--class nj.zb.kb11.HelloWord     
--master local[*]   ./sparkstu.jar 

结果截图:
在这里插入图片描述

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark和Flink都是大数据处理框架,它们的jar依赖不同。Spark的依赖括Scala、Hadoop、Akka等,而Flink的依赖括Scala、Hadoop、Netty等。在使用这些框架时,需要根据具体的需求选择相应的依赖,并将其添加到项目中。同时,还需要注意依赖的版本兼容性,以避免出现不兼容的情况。 ### 回答2: Spark和Flink都是流行的大数据处理框架,它们都支持在作业执行期间使用外部的jar。 对于Spark,可以通过以下几种方式添加jar依赖: 1. 通过命令行使用--jars参数来指定jar的路径。例如:`spark-submit --class mainClassName --jars path/to/dependency.jar application.jar`。在这种方法中,所有的依赖jar都会被自动分发到集群中的每个工作节点,供Spark作业使用。 2. 在代码中使用`SparkContext`的`addJar`方法来添加jar依赖。例如:`sparkContext.addJar("path/to/dependency.jar")`。这个方法会将依赖jar分发给集群中的每个工作节点,供Spark作业使用。 对于Flink,可以使用以下几种方式添加jar依赖: 1. 在代码中通过`env.registerExternalLibrary`方法注册待使用的jar。例如:`env.registerExternalLibrary("path/to/dependency.jar")`。这样注册后,Flink作业在提交和运行时会将依赖的jar自动分发到集群中。 2. 在Flink的作业配置文件中使用`pipeline.classpaths`属性来指定jar的路径。例如:`pipeline.classpaths: ["path/to/dependency.jar"]`。Flink在运行作业时会将指定的jar自动分发到集群中的每个任务运行实例。 以上是Spark和Flink中添加jar依赖的常用方法,通过这些方法可以将外部的jar导入到框架的运行环境中,以供作业使用。 ### 回答3: Spark和Flink是两个常用的大数据处理框架,它们可以用来处理大规模数据集和流式数据。在使用这两个框架时,我们需要将项目打成一个可执行的jar,并在提交任务时依赖所需的库文件。 对于Sparkjar依赖,我们需要在构建项目时定义所需的依赖项,可以使用Maven或者其他构建工具来管理依赖关系。在pom.xml文件中添加相应的依赖项,例如Spark Core、Spark SQL、Spark Streaming等。在打项目时,构建工具会把这些依赖项打进生成的jar中,以便在集群上执行时可以访问到这些依赖库。 对于Flink的jar依赖,也需要在构建项目时定义相关的依赖项。与Spark类似,可以使用Maven或其他构建工具来管理依赖关系。在pom.xml文件中添加Flink的核心依赖以及其他需要使用的模块,如Flink SQL、Flink Streaming等。在打时,依赖项会被打到生成的jar中,以便在集群中执行时可以访问到所需的依赖库。 在提交作业时,无论是Spark还是Flink,都需要指定相关的jar路径,以告知框架要加载的依赖库。可以通过命令行参数或者在代码中设置相应的参数来指定依赖库的路径。框架会根据这些信息在集群中进行作业的执行,保证所需的依赖库可用。 总结来说,无论是Spark还是Flink,jar依赖都需要在构建项目时定义,并在打时将依赖库打到生成的jar中。在提交作业时,需要指定相关的依赖路径,以确保集群中可以加载到所需的依赖库。这样可以保证在分布式环境中使用Spark和Flink时,能够顺利地执行大数据处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值