业务场景:近来项目需要处理log日志文件,这里用到了spark来进行处理
环境:ubantu/Linux
工具:jdk1.8及以上、spark-2.2.0、scala-2.13.0-M1(M1含义为此版本的第一个发行版,先驱者哈)
第一步:安装jdk ,检查服务器是否配有环境变量 java -version
下载jdk url:
http://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html
解压并配置环境变量,这里就不多说了。
第二步:安装spark
下载spark url:
https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
下载scala url:
http://www.scala-lang.org/download/2.13.0-M1.html
scala由于镜像地址原因下载比较缓慢,没有vpn的同学可以到这里下载:
下载完成并解压,配置环境变量:
vim etc/profile
末尾添加进去:
export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.7/
export PATH=$PATH:${SPARK_HOME}/bin
保存并退出,source profile 刷新使环境变量生效
#export SCALA_HOME=/usr/local/scala-2.13.0-M1
#export PATH=${SCALA_HOMA}/bin:$PATH
进到spark解压目录conf下,重命名文件
cp spark-env.sh.template spark-env.sh
进到文件里面 vim spark-env.sh,末尾添加本机IP、分配内存、JAVA_HOME
export SPARK_MASTER_IP="192.168.249.255"
#export SCALA_HOME=/usr/local/scala-2.13.0-M1
export SPARK_WORKER_MEMORY=1g
export JAVA_HOME=/usr/local/jdk1.8.0_161
保存并退出,进入sbin,启动一下 ./start-master.sh
启动成功不报错,就可以访问一下页面验证一下了
停掉spark也是在sbin下./stop-master.sh
scala配置也在上面 #注释掉的相应到目录下解开注释,然后重新启动spark,不报错 还能够访问到spark页面就说明配置好了
到此集成完毕。
参考地址:https://blog.csdn.net/sinat_34022298/article/details/77461178
后续集成日志业务开发,感兴趣的童鞋,可以关注一下,共同学习进步。