1、简介
spark在现在的数据分析,包括离线分析,微批次处理过程中有很多的运用,但是在启动任务的过程中,大部分是将spark作为一个单独的项目进行处理,但是有时候,在一些和web等项目整合的时候,就不需要单独的进行处理,因此就有了一下两种启动spark的任务方式:
1.1、使用方式1
- 创建传统的maven项目,将spark进行单独的处理,首先添加pom坐标
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cn.alongxuetang.com</groupId>
<artifactId>alongxuetang-root</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<spark.version>2.0.2</spark.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.8</version>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-compiler</artifactId>