Spark从入门到精通第一课：IDEA整合Maven开发第一个Spark应用程序

最新推荐文章于 2024-04-23 15:48:03 发布

二百四十九先森

最新推荐文章于 2024-04-23 15:48:03 发布

阅读量578

点赞数 1

分类专栏： Spark技术详解常用工具文章标签： Spark

本文链接：https://blog.csdn.net/pengzonglu7292/article/details/79505632

版权

Spark技术详解同时被 2 个专栏收录

31 篇文章 4 订阅

订阅专栏

常用工具

11 篇文章 1 订阅

订阅专栏

1、Maven安装

1、Windows安装好Maven
    按提示一路确定即可，和安装QQ差不多
2、配置好库和settings.xml文件
    <!--指定仓库位置-->
    <localRepository>G:\SoftwareInstall\maven\apache-maven-3.3.9\repository</localRepository>
    <!--指定软件下载源，阿里源会快一些-->
	<mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
	  <mirrorOf>central</mirrorOf>
    </mirror>


3、在IDEA中指定maven安装路径
    略，自行百度

2、新建Maven项目的注意点

3、配置pom.xml文件（在A方添加B）

A：对照观察这儿的A对应你的pom.xml文件的哪些内容

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>MySpark</groupId>
  <artifactId>MySpark</artifactId>
  <version>1.0-SNAPSHOT</version>

  <name>MySpark</name>
  <!-- FIXME change it to the project's website -->
  <url>http://www.example.com</url>

B:


  <!-- 配置以下可以解决 在jdk1.8环境下打包时报错 “-source 1.5 中不支持 lambda 表达式” -->
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <dependencies>
    <!-- Spark-core -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
    <!-- SparkSQL -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
    <!-- SparkSQL  ON  Hive-->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
    <!--mysql依赖的jar包-->
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.47</version>
    </dependency>
    <!--SparkStreaming-->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.11</artifactId>
      <version>2.3.1</version>
      <!--<scope>provided</scope>-->
    </dependency>
    <!-- SparkStreaming + Kafka -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
    <!-- 向kafka 生产数据需要包 -->
    <dependency>
      <groupId>org.apache.kafka</groupId>
      <artifactId>kafka-clients</artifactId>
      <version>0.10.0.0</version>
      <!-- 编译和测试使用jar包，没有传递性 -->
      <!--<scope>provided</scope>-->
    </dependency>
    <!--连接 Redis 需要的包-->
    <dependency>
      <groupId>redis.clients</groupId>
      <artifactId>jedis</artifactId>
      <version>2.6.1</version>
    </dependency>

    <!-- 机器学习 MLlib包-->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-mllib_2.11</artifactId>
      <version>2.3.1</version>
      <scope>runtime</scope>
    </dependency>

    <!-- Scala 包-->
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>2.11.7</version>
    </dependency>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-compiler</artifactId>
      <version>2.11.7</version>
    </dependency>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-reflect</artifactId>
      <version>2.11.7</version>
    </dependency>
    <dependency>
      <groupId>log4j</groupId>
      <artifactId>log4j</artifactId>
      <version>1.2.12</version>
    </dependency>
    <dependency>
      <groupId>com.google.collections</groupId>
      <artifactId>google-collections</artifactId>
      <version>1.0</version>
      <!-- 去除自带的 jar 版本 -->
      <!--<exclusions>-->
      <!--<exclusion>-->
      <!--<groupId>org.springframework</groupId>-->
      <!--<artifactId>spring-aop</artifactId>-->
      <!--</exclusion>-->
      <!--<exclusion>-->
      <!--<groupId>org.springframework</groupId>-->
      <!--<artifactId>spring-context</artifactId>-->
      <!--</exclusion>-->
      <!--</exclusions>-->
    </dependency>

  </dependencies>

  <build>
    <plugins>

      <!-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
        <version>2.15.2</version>
        <executions>
          <execution>
            <goals>
              <goal>compile</goal>
              <goal>testCompile</goal>
            </goals>
          </execution>
        </executions>
      </plugin>

      <!-- maven 打jar包需要插件 -->
      <plugin>
        <artifactId>maven-assembly-plugin</artifactId>
        <version>2.4</version>
        <configuration>
          <!-- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->
          <!--<appendAssemblyId>false</appendAssemblyId>-->
          <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
          </descriptorRefs>
          <archive>
            <manifest>
              <mainClass>com.bjsxt.scalaspark.core.examples.ExecuteLinuxShell</mainClass>
            </manifest>
          </archive>
        </configuration>
        <executions>
          <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
              <goal>assembly</goal>
            </goals>
          </execution>
        </executions>
      </plugin>


      <!-- 以上assembly可以将依赖的包打入到一个jar包中，下面这种方式是使用maven原生的方式打jar包，不将依赖的包打入到最终的jar包中 -->
      <!--<plugin>-->
      <!--<groupId>org.apache.maven.plugins</groupId>-->
      <!--<artifactId>maven-jar-plugin</artifactId>-->
      <!--<version>2.4</version>-->
      <!--<configuration>-->
      <!--<archive>-->
      <!--<manifest>-->
      <!--<addClasspath>true</addClasspath>-->
      <!--&lt;!&ndash; 指定当前主类运行时找依赖的jar包时 所有依赖的jar包存放路径的前缀 &ndash;&gt;-->
      <!--<classpathPrefix>/alljars/lib</classpathPrefix>-->
      <!--<mainClass>com.bjsxt.javaspark.sql.CreateDataSetFromHive</mainClass>-->
      <!--</manifest>-->
      <!--</archive>-->
      <!--</configuration>-->
      <!--</plugin>-->


      <!-- 拷贝依赖的jar包到lib目录 -->
      <!--<plugin>-->
      <!--<groupId>org.apache.maven.plugins</groupId>-->
      <!--<artifactId>maven-dependency-plugin</artifactId>-->
      <!--<executions>-->
      <!--<execution>-->
      <!--<id>copy</id>-->
      <!--<phase>package</phase>-->
      <!--<goals>-->
      <!--<goal>copy-dependencies</goal>-->
      <!--</goals>-->
      <!--<configuration>-->
      <!--<outputDirectory>-->
      <!--&lt;!&ndash; 将依赖的jar 包复制到target/lib下&ndash;&gt;-->
      <!--${project.build.directory}/lib-->
      <!--</outputDirectory>-->
      <!--</configuration>-->
      <!--</execution>-->
      <!--</executions>-->
      <!--</plugin>-->

      <!-- 排除当前项目下指定路径下的文件 -->
      <!--<plugin>-->
      <!--<groupId>org.apache.maven.plugins</groupId>-->
      <!--<artifactId>maven-jar-plugin</artifactId>-->
      <!--<version>3.0.0</version>-->
      <!--<configuration>-->
      <!--<excludes> &lt;!&ndash; /com/bjsxt/javaspark/core/actions 包下的文件不要打包 &ndash;&gt;-->
      <!--<exclude>/com/bjsxt/javaspark/core/actions/*</exclude>-->
      <!--</excludes>-->
      <!--</configuration>-->
      <!--</plugin>-->

    </plugins>
  </build>

</project>

如果使用的hadoop是cdh版本，则我们需要在Maven的依赖中添加cdh的仓

在<repositories>..........</repositories>之间添加

<repository>
<id>cloudera</id>
<name>cloudera</name>
<url>http://repository.cloudera.com/artifactory/cloudera-repos</url>
</repository>

##有时候会报找不到jar包的错误，此时只需要：

##views->tools windows->Maven Projects->LifeCycle->clean 如果出现build success则表明没有问题。

查看源码：IDEA右上角有一个放大镜，直接在里面搜索即可。

开发第一个spark程序

数据文件：
    hello spark
    hello mr
    hello yarn
    hello hive
    hello spark
文件放到项目名下的data目录下

代码：
package com.imooc.spark.core

import org.apache.spark.{SparkConf, SparkContext}

object WordCountApp {
    def main(args: Array[String]) {
        val conf=new SparkConf().setMaster("local[2]").setAppName("first_Spark")
        val sc = new SparkContext(conf)
        val data = sc.textFile("data/a.txt")
        val result=data.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
        result.foreach(println)
        sc.stop()
    }  
}


结果：
    (spark,2)
    (hive,1)
    (mr,1)
    (hello,5)
    (yarn,1)

打包执行

1、打成jar包：views->Tools Windows->Maven Projects->LifeCycle->package
2、上传服务器：re -be /home/hadoop/lib

3、执行

./spark-submit \

--class com.imooc.spark.core.WordCountApp \

--master local[2] \

/home/hadoop/lib/jar包 \

hdfs://192.168.149.141:8020/wc_output

当然啦，这种方式很麻烦的，我们可以直接在spark-shell里进行开发

注意：
    打包的时候，对于不需要的jar包，比如spark运行环境之类的，可以添加
        <scope>provided</provided>来声明其只在测试和编译时有效。

二百四十九先森

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark从入门到精通第一课：IDEA整合Maven开发第一个Spark应用程序

1、Maven安装1、Windows安装好Maven 按提示一路确定即可，和安装QQ差不多2、配置好库和settings.xml文件  <localRepository>G:\SoftwareInstall\maven\apache-maven-3.3.9\repository</localRepository...
复制链接

扫一扫