在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看博主的另一篇:
ubuntu18.04安装Hadoop_爱吃火锅的博客-CSDN博客_ubuntu 安装hadoop
##################################################################################################
Hadoop
按上面文章配置后,启动hdfs文件系统以及yarn资源调度器:
使用jps查看是否启动成功:
出现如上即表示启动成功!!!!!!!!
说明:
ResourceManager和NodeManager是yarn资源调度器启动的
DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的
所以如果有哪项没有启动成功,就说明对应(yarn或hdfs)的配置文件没有配置成功,需要去看日志手动解决
二者都有相应的web即:
yarn:
hdfs:
###################################################################################################
Scala安装:
下载地址:Scala 2.11.8 | The Scala Programming Language
下载好后解压到:/usr/local/
sudo tar zxvf scala-2.11.8.tgz -C /usr/local/
删除安装包:
rm scala-2.11.8.tgz
进入到减压目录并重命名:
cd /usr/local/
sudo mv scala-2.11.8 scala
配置环境变量:
sudo vim /etc/profile
source /etc/profile
测试:
################################################################################################
Spark安装:
下载好后解压到:/usr/local/
sudo tar zxvf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/local/
删除安装包:
rm spark-2.3.1-bin-hadoop2.7.tgz
进入到减压目录并重命名:
cd /usr/local/
sudo mv spark-2.3.1-bin-hadoop2.7 spark
配置环境:
sudo vim /etc/profile
source /etc/profile
配置配置spark-env.sh
进入到spark/conf/
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_181
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
java,hadoop等具体路径根据自己实际环境设置。
配置Slave
cp slaves.template slaves
vim slaves
默认就是localhost
启动(前提是hadoop伪分布已经启动,就是上面的jps后出现那几个):
启动sbin目录下的start-master.sh以及start-slaves.sh
注意:
sbin目录下都是些启动或关闭操作,尤其注意下有start-slaves.sh和start-slave.sh,这里启动的是start-slaves.sh
Spark的web界面:http://127.0.0.1:8099/
启动bin目录下的spark-shell
可以看到已经进入到scala环境,此时就可以编写代码啦!!!!!!!!!
spark-shell的web界面http://127.0.0.1:4040
当然为了方便,还可以配置修改BASH配置:
vim /etc/bash.bashrc
export SPARK_HOME=/usr/local/spark
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH
source /etc/bash.bashrc
以后就可以方便使用了。
简略日志:
spark将所有日志都会输出,很详细,所以屏幕打印很多,由于混合了很多日志不利于寻找程序执行的结果,所以要将info,改为warn,这样打印结果简单明了了许多。
cd $SPARK_HOME/conf
cp log4j.properties.template log4j.properties
sudo vim log4j.properties
以上介绍了进入scala编程环境,如果想要使用python环境开发,可以参考:spark入门框架+python_爱吃火锅的博客-CSDN博客_python spark
看到很多小伙伴私信和关注,为了不迷路,欢迎大家关注笔者的微信公众号,会定期发一些关于NLP的干活总结和实践心得,当然别的方向也会发,一起学习: