本集群搭建依赖于:
VMware Workstation12 Pro
SecureCRT 7.3
Xftp 5
CentOS-7-x86_64-Everything-1611.iso
hadoop-2.8.0.tar.gz
jdk-8u121-linux-x64.tar.gz
spark-2.1.1-bin-hadoop2.7.tgz
有关虚拟机和Hadoop的安装点击这里
IP | role |
---|---|
172.17.11.85 | master、worker |
172.17.11.86 | worker |
172.17.11.87 | worker |
1.在官网上下载最新稳定版Spark之后,上传到集群中的master/usr/local目录下,之后使用tar
命令解压然后使用scp命令分发到其余机器上的相同目录,然后重命名为spark
2.进入/usr/local/spark/conf下将两个模板文件分别重命名为spark-env.sh、slaves
spark-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_131
export SPARK_MASTER_HOST=172.17.11.85
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g
slaves
172.17.11.85
172.17.11.86
172.17.11.87
3.local模式
创建/root/file.txt文件
启动local模式
读取本地文件,做wordcount
读取hdfs文件做wordcount
UI
4.standalone模式
cd /usr/local/spark
sbin/start-all.sh
读取hdfs文件做wordcount
读取本地文件做wordcount(三台机器相同路径下都要有file.txt)