Spark环境搭建
首先,感谢@给力星 的教程,让我搞定了大部分Spark安装;本文只涉及安装的小步骤,不涉及讲解,且适合有一些Linux基础人员,如需要讲解请自行百度,或后面会出详细版本。
使用下列链接教程时注意:
Java要安装Java8,版本高的话Spark和Hadoop都不兼容,会出现一堆令人颤抖的Bug。
如果电脑已有其他Java版本,请安装链接后的JAVA_HOME设置修改JAVA_HOME。
Hadoop安装:http://dblab.xmu.edu.cn/blog/install-hadoop/
Hadoop集群安装:http://dblab.xmu.edu.cn/blog/install-hadoop-cluster/
Spark安装:http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/
在经过上面的安装步骤后,大致的安装环境已经差不多了,但是还有一些配置需要修改一下:
部分配置文件修改
JAVA_HOME设置
/usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改原有的JAVA_HOME设置为具体的JAVA_HOME设置,即绝对路径。我用的jdk1.8.0_181,具体可以根据自己的JAVA环境变通:
# The java implementation to use.
#export JAVA_HOME=$JAVA_HOME
export JAVA_HOME=/usr/local/jdk1.8.0_181
设置节点可以用主机名访问
/usr/local/hadoop/etc/hadoop/hdfs-site.xml
在configuratiton中添加一个property:
<property>
<name>dfs.client.use.datanode.hostname</name>
<value>true</value>
</property>
修改配置后别忘了把所有配置复制到子节点去。
最后再附上自己的~/.bashrc文件:
export JAVA_HOME=/usr/local/jdk1.8.0_181
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$JAVA_HOME/bin:/usr/local/hadoop/bin
export PATH=$PATH:/usr/local/hadoop/sbin
export PATH=$PATH:/usr/local/sbt/bin
export PATH=$PATH:/usr/local/spark/bin:/usr/local/spark/sbin
spark-defaults.conf文件:
spark.master yarn
spark.submit.deployMode cluster
spark.network.timeout 12000
spark.executor.memory 3g
spark.executor.cores 1