【Flink 问题】Flink 如何提交轻量jar包 依赖该如何存放 会遇到哪些问题

又好长一阵子没写作了,不过接下来会开始定期更新了。

从自己身上找到了一些问题–懒惰

  • 懒惰的根源不是懒惰本身
  • 而是意识到懒惰,却极难改变这种现状
  • 我想还是要以短期目标为导向
  • 这或许是改变现状的一种方式

说正事了,不然有人点进来要说,这沙雕是在干啥?虽然我很随缘,但我还是很在乎读者体验。

问题描述

Flink任务的提交,是通过提交jar包,配置方法入口,并行度以及其他必要参数。如果在调试阶段,难免在修改完代码之后需要重新上传jar包。多次重复上传,如果这个包太大了,例如我这个项目的包
在这里插入图片描述

尼玛,两百兆。网速快点还好,如果远程部署,每次要传输很久。再者,如果nginx限制了传输大小,直接GG,况且每次传好几百兆,太吃资源了。总之弊端太多了。

解决方法

我们写的代码显然不可能有几百兆,这其中大部分都是项目中引用的依赖,和项目中用到的大文件。因此,可以我们要让依赖导入一次即可。
会点进来的哥们,我想都是对flink有一定的熟悉,到了尝试部署的阶段了,本文这边采用的是standalone模式,这部分的内容,道理都一样,不同模式依赖存放位置不同罢了。
standalone模式下,jar的依赖可以放在安装目录的lib目录下
如下图:
在这里插入图片描述
可以看到这目录很纯净,都是原始,flink启动用到的相关依赖。既然flink启动用到的是这里的依赖,项目的外部依赖也放这里。机灵的伙伴们一定会想到依赖冲突的问题。这种情况只能依项目情况解决了。主要是scala的包和sl4j的包会冲突。

打包maven配置修改plugin

<plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>

            <!-- 将项目依赖包复制到<outputDirectory>指定的目录下 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-dependency-plugin</artifactId>
                <executions>
                    <execution>
                        <id>copy-dependencies</id>
                        <phase>package</phase>
                        <goals>
                            <goal>copy-dependencies</goal>
                        </goals>
                        <configuration>
                            <outputDirectory>
                                ${project.build.directory}/lib
                            </outputDirectory>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
            <!-- 将项目依赖包的路径(与上一项中的<outputDirectory>对应)添加到classPath中 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
                            <mainClass>com.ctbri.echoRisk.ApplicationStart</mainClass>
                        </manifest>
                        <manifestEntries>
                            <Class-Path>./</Class-Path>
                        </manifestEntries>
                    </archive>
                </configuration>
            </plugin>

使用这个插件打出来的包

在这里插入图片描述
可以看到现在的jar包只有600多k,并且可以看到多了一个lib的文件夹。
在这里插入图片描述
可以看到这里面有项目用到的很多依赖。
正常来讲,把这些依赖,全部复制到flink/lib目录下,启动集群,提交这个几百k的jar就可以运行了。
但是会发现,copy到flink/lib下之后,flink直接启动失败了,这就是包冲突的问题。我这边因为冲突的是scala包和sl4j的包,我不用scala,因此scala的包我直接不放进lib,sl4j同理,也不放进lib。然后能够正常启动我就不管了。
解决这种问题,当然还有其他方式,我估计就是项目需要选择和你安装的flink版本要一致。
晚安~

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: Spark和Flink都是大数据处理框架,它们的jar依赖不同。Spark的依赖括Scala、Hadoop、Akka等,而Flink依赖括Scala、Hadoop、Netty等。在使用这些框架时,需要根据具体的需求选择相应的依赖,并将其添加到项目中。同时,还需要注意依赖的版本兼容性,以避免出现不兼容的情况。 ### 回答2: Spark和Flink都是流行的大数据处理框架,它们都支持在作业执行期间使用外部的jar。 对于Spark,可以通过以下几种方式添加jar依赖: 1. 通过命令行使用--jars参数来指定jar的路径。例如:`spark-submit --class mainClassName --jars path/to/dependency.jar application.jar`。在这种方法中,所有的依赖jar被自动分发到集群中的每个工作节点,供Spark作业使用。 2. 在代码中使用`SparkContext`的`addJar`方法来添加jar依赖。例如:`sparkContext.addJar("path/to/dependency.jar")`。这个方法依赖jar分发给集群中的每个工作节点,供Spark作业使用。 对于Flink,可以使用以下几种方式添加jar依赖: 1. 在代码中通过`env.registerExternalLibrary`方法注册待使用的jar。例如:`env.registerExternalLibrary("path/to/dependency.jar")`。这样注册后,Flink作业在提交和运行时依赖jar自动分发到集群中。 2. 在Flink的作业配置文件中使用`pipeline.classpaths`属性来指定jar的路径。例如:`pipeline.classpaths: ["path/to/dependency.jar"]`。Flink在运行作业时将指定的jar自动分发到集群中的每个任务运行实例。 以上是Spark和Flink中添加jar依赖的常用方法,通过这些方法可以将外部的jar导入到框架的运行环境中,以供作业使用。 ### 回答3: Spark和Flink是两个常用的大数据处理框架,它们可以用来处理大规模数据集和流式数据。在使用这两个框架时,我们需要将项目打成一个可执行的jar,并在提交任务时依赖所需的库文件。 对于Spark的jar依赖,我们需要在构建项目时定义所需的依赖项,可以使用Maven或者其他构建工具来管理依赖关系。在pom.xml文件中添加相应的依赖项,例如Spark Core、Spark SQL、Spark Streaming等。在打项目时,构建工具把这些依赖项打进生成的jar中,以便在集群上执行时可以访问到这些依赖库。 对于Flinkjar依赖,也需要在构建项目时定义相关的依赖项。与Spark类似,可以使用Maven或其他构建工具来管理依赖关系。在pom.xml文件中添加Flink的核心依赖以及其他需要使用的模块,如Flink SQL、Flink Streaming等。在打时,依赖被打到生成的jar中,以便在集群中执行时可以访问到所需的依赖库。 在提交作业时,无论是Spark还是Flink,都需要指定相关的jar路径,以告知框架要加载的依赖库。可以通过命令行参数或者在代码中设置相应的参数来指定依赖库的路径。框架根据这些信息在集群中进行作业的执行,保证所需的依赖库可用。 总结来说,无论是Spark还是Flinkjar依赖都需要在构建项目时定义,并在打时将依赖库打到生成的jar中。在提交作业时,需要指定相关的依赖路径,以确保集群中可以加载到所需的依赖库。这样可以保证在分布式环境中使用Spark和Flink时,能够顺利地执行大数据处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值