前言:准备利用这段时间好好搞搞大数据这套东西,从很早之前就听闻Google三宝的传说,但是时至今日才得以接触到它们衍生出来各种技术。虽然时常被不知道何处的问题搞的筋疲力竭,可是一旦调通了,真是太有意思了。技术平平,翻阅各种大神的博客,填坑无数,从而写下此笔记。
一.配置与工具
系统版本:ubuntu 18.04LTS
编译器工具:idea 2018.2.1社区版
使用idea自带maven进行调试
二.实验目标
第一搭建好scala编译环境
第二编写Wordcount脚本,并调试
第三打jar包,提交到spark运行
三.配置maven环境
①建立自己的maven项目
可以看到这是一个崭新的maven项目,现在并不支持scala调试,我们下一步将修改pom.xml以使其满足项目需求
②修改pom文件
<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.version>2.2.0</spark.version> <scala.version>2.11</scala.version> <hadoop.version>2.7.3</hadoop.version> </properties>
设定好使用的三组件版本,这个版本号真的是坑的一比,在网上抄了各种配置,每种飘红的地方都不一样,所以在这里记录下来能够应付本项目的这些pom写法,报错的地方在下面记录下来,以备后患。
不过在此之前,我们先改动一下maven库源位置到aliyun,这样下载更新会快很多。
Settins->Maven User setting file 选成我们自己的配置文件,这个文件放到用户根目录下的.m2文件夹下即可
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
<?xml version="1.0" encoding="UTF-8"?>
<settings>
<localRepository>/home/zs/.m2/repository</localRepository><!--需要改成自己的maven的本地仓库地址-->
<mirrors>
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
</mirrors>
<profiles>
<profile>
<id>nexus</id>
<repositories>
<repository>