不是教程,教程请看http://www.cnblogs.com/zyrblog/p/8510506.html
只是个人笔记
发现了一个尴尬事
首先需要说明的是,spark+hdfs是标准的业界应用搭配,从hdfs里读文件,用spark处理
但如果只是为了学spark,建议搭建单节点的伪分布式,文件读取全从本地读取,少个hdfs少点破事,因为如果用的是真的分布式,那么读取本地文件的时候,要求每个节点都有一个对应的文件才行。
准备材料
- 一台能联网的电脑
- VMware 14
- Centos 7 1801 64bit 我还是喜欢centos多一些,old fashion,好吧其实是装了一次ubuntu发现里面缺的东西有点多,ifconfig,vim都没有还得自己安,烦
- jdk-8u191-linux-x64.tar.gz
- spark-2.3.3-bin-hadoop2.7.tgz
- hadoop-2.9.1.tar.gz
- Scala 2.11.12
spark hadoop java scala之间有版本约束,要注意看文档,
spark对hadoop和scala和java的版本有要求,scala对java的版本也有要求
安装虚拟机
装好vmware 安装linux系统注意再安装的时候一定要选择稍后安装操作系统,否则默认是最小化安装,里面的东西都不全,还要后装很多东西
时区一定要选对!!
尽量装英文的
配置虚拟机各种东西之后,网络选择nat,之后再改ip
安装的时候要完整安装,一定完整安装,要不屁事太多烦得很
别忘了设置用户密码,不同主机的用户名保证一致
装完之后改息屏时间,改分辨率,改清华镜像,ping一下主机看看联通不
https://mirrors.tuna.tsinghua.edu.cn/help/centos/
然后进root,用visudo修改sudoer文件
然后改固定ip,红框内是需要添加或者修改的,我配的是master 192.168.225.3 slave是192.168.225.4