spark代码 spark-submit提交yarn-cluster模式

最新推荐文章于 2024-05-21 14:54:56 发布

提灯寻梦在南国

最新推荐文章于 2024-05-21 14:54:56 发布

阅读量3.8k

点赞数 1

分类专栏：大数据 Spark 文章标签： spark-submit yarn-cluster

本文链接：https://blog.csdn.net/weixin_38073885/article/details/96022047

版权

worldcount yarn-cluster集群作业运行

之前写的是一个windows本地的worldcount的代码，当然这种功能简单代码量少的也可以直接在spark-shell中直接输scala指令。

但是在项目开发企业运用中，因为本地的资源有限使得无法发挥出spark的真正优势。因此在这里我就spark代码在集群中运行做一些补充讲述。

我使用的环境是： idea编译器 jdk1.7 scala 2.10 spark 1.6.0（因为公司服务器普遍搭建的还是cdh5.15集群，上面的spark版本是旧时的1.6.0版本 2.x上面的一些功能不能使用例如SparkSession Spark.ml包这里还需要注意一点的是在maven打包时如果编译打包的环境是jdk1.8有可能会出现打包不成功这是因为jdk与scala二者版本不兼容导致建议读者将jdk换成1.7 或者提高scala版本）

1. 首先搭建idea maven环境添加相应依赖

关于idea中配置maven环境之类的，还有什么jdk之类的搭建，南国在这里就不做篇幅说明了。这些属于基本操作，不熟悉操作的网上有许多资料，比较简单。

这里我主要给出项目所需要的pom.xml配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>Huawei</groupId>
    <artifactId>Spark</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <spark.version>1.6.0-cdh5.15.0</spark.version>
        <scala.version>2.10</scala.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.

最低0.47元/天解锁文章

提灯寻梦在南国

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
spark代码 spark-submit提交yarn-cluster模式

worldcount yarn-cluster集群作业运行上面写的是一个windows本地的worldcount的代码，当然这种功能简单代码量少的也可以直接在spark-shell中直接输scala指令。但是在项目开发企业运用中，因为本地的资源有限使得无法发挥出spark的真正优势。因此在这里我就spark代码在集群中运行做一些补充讲述。我使用的环境是： idea编译器 jdk...
复制链接

扫一扫