注:此实验环境基于本人文章“Centos7搭建hadoop完全分布式集群”
文章链接:https://blog.csdn.net/Jop_qq/article/details/89421400
所有实验资源均可自行上网下载
1.在spark官网下载2.4.4版本的安装包
2.使用xftp传输工具将spark安装包上传至master主机的/opt目录下
3.在所有节点上创建hadoop用户
添加用户
adduser hadoop
设置密码
passwd hadoop
4.将hadoop用户添加到sudoers用户组中,便于带权限命令的执行依次
执行命令
su root //切换到超级用户root
chmod u+w /etc/sudoers //添加文件写权限
vim /etc/sudoers //编辑文件
添加内容如箭头所指行:
chmod u-w /etc/sudoers //取消文件写权限
5.修改/opt目录所属用户组,并切换到hadoop用户
6.在master节点上执行,解压spark安装包并修改目录名,便于操作
7.在所有节点上,配置java和spark的环境变量
vim ~/.bashrc //编辑配置文件
修改的内容如下:
8.保存后令配置文件立刻生效
9.在master节点上配置salves文件,将slaves.template拷贝到slaves,将默认内容替换成子节点主机名
10.在master节点上配置spark-env.sh文件,添加相关内容
11.在master节点上打包master节点上的spark目录文件,并依次通过scp命令传到各个子节点上的/optm目录下
12.在所有子节点上执行解压命令,实现spark的安装
13.在master节点上生成秘钥
14.将秘钥传到各个子节点,用于免密登录
15.启动hadoop集群
16.在hdfs文件系统上创建user.hadoop目录
17.在浏览器中查看新建目录结果
18.在用户目录下新建text.txt文件并输入文字内容保存
19.将test.txt文件上传至hdfs文件系统中的hadoop目录下
20.在浏览器中查看上传结果
21.将test.txt文件下载到本地文件夹中
22.在终端中查看test.txt的内容
23.在hdfs中创建input目录并将test.txt文件复制到input中
24.删除hdfs中hadoop目录下的test.txt文件
25.删除hdfs中的input目录及其子文件
26.在官网下载sbt安装包
27.将sbt安装包通过xftp工具上传至master节点的/opt目录下
28.解压sbt压缩包
29.修改sbt脚本文件,修改内容如下:
30.添加sbt脚本文件执行权限
31.检验sbt是否可用
32.在master节点上启动spark集群
33.在集群中运行spark-shell
34.在浏览器中查看spark集群详情
35.在master节点另开终端,将test.txt文件传到各个节点上
36.在spark-shell中查看本地文件系统中的test.txt文件的内容行数
37.由于hdfs中没有test.txt文件,所有需要在本地上传一份至hadoop目录下
38.读取hdfs文件系统中的test.txt文件的内容行数,正确结果显示为3行
39.进入用户主目录,创建应用程序文件夹结构
40.编写SimleApp程序代码文件
41.新建simple.sbt脚本文件
42.执行打包命令,生成可执行的jar包
43.提交到spark-submit中运行成功后输出结果为3行
至此,实验完成!