敲黑板 ,引入的依赖 一定要 “compile” 或则 “runtime”,否则spark conf 无法初始化,这辈子也运行不了,千万不要是 “provided".
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>${spark.jar.version}</version>
<scope>compile</scope>
</dependency>
在一个maven项目中,如果存在编译需要而发布不需要的jar包,可以用scope标签,值设为provided。如下:
<dependency>
<groupId>javax.servlet.jsp</groupId>
<artifactId>jsp-api</artifactId>
<version>2.1</version>
<scope>provided</scope>
<classifier />
</dependency>
scope的其他参数如下:
- compile
默认的scope,表示 dependency 都可以在生命周期中使用。而且,这些dependencies 会传递到依赖的项目中。适用于所有阶段,会随着项目一起发布
- provided
跟compile相似,但是表明了dependency 由JDK或者容器提供,例如Servlet AP和一些Java EE APIs。这个scope 只能作用在编译和测试时,同时没有传递性。???
- runtime
表示dependency不作用在编译时,但会作用在运行和测试时,如JDBC驱动,适用运行和测试阶段。
- test
表示dependency作用在测试时,不作用在运行时。 只在测试时使用,用于编译和运行测试代码。不会随项目发布。
- system
跟provided 相似,但是在系统中要以外部JAR包的形式提供,maven不会在repository查找它。
引入 spark 依赖 ,尤其是 spark-core spark -streaming spark-mllib ,这个时候要注意两点,这些spark 依赖的版本也一定要和 安装spark 根目录下jars 目录中的spark 相关jar包版本一致,通过观察 jars 中的spark 相关jar包都是 spark_*_2.11.0_2.1.0,一定要注意其中的版本,2.11.0代表的是spark 引用的scala 版本大号