安装Spark(我的Linux系统是Fedora)
准备工作
1.先下载spark,结合自己安装的hadoop版本选择适合的版本,网址是http://spark.apache.org/downloads.html
2. 我下载之后是把它放到opt文件夹,方便管理
3. 解压下载的 spark-2.4.0-bin-hadoop2.6.tgz,解压之后我还把文件名改了一下spark-2.4.0,方便后面输入命令时省时间
开始配置
1.去到spark-2.4.0目录下的conf文件里,打开终端,输入
vi spark-env.sh
输入以下配置信息,安装的jdk和hadoop的路径,一定要写对,不然后面会出错的
- 保存之后进去sbin目录,里面有很多可执行.sh文件,输入命令时,如果遇到Permission denied,把文件的权限改一下就行
- 输入 ./start-all.sh之后出现以下情况,然后输入jps查看一下,有下面的Worker和Master说明Spark配置成功
- 其余的几个是Hadoop的进程
验证Spark
进去spark-2.4.0文件夹里的bin文件夹,查看一下有没有这个spark-shell
然后打开终端输入 ./spark-shell 出现下面的情况就说明spark已经正常开启
上图里面有几个warning,我查了一下,说是jdk版本过高,与spark有点不匹配,具体是怎么样的还没有去深入理解,但它不影响项目的正常运行,所以就没理它