第一步拷贝文件到uploads目录下(这里我创建了一个spark目录,把老师的文件全部放在了spark目录里,如果不跟我一样后面的cd目录操作自行修改)
相关文件链接在文档末尾
第二步检查python版本,版本不对要下载python3.0+
python -V 检查python版本
yum -y install python3 安装python3,安装过程默认y(yes)
这样便完成安装,这个时候我们查看python版本发现还是python2,原因是python为默认编译方式,但是我们的python3环境已经存在,后续环境中已经配置完成。
第三步解压缩spark(进入spark目录下去解压缩)
cd /usr/local/uploads/spark 进入文件目录下
ll 查看文件信息
这里就能看见我的文件是传输正常的
在此基础上我进行解压缩操作
tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
mv spark-2.4.0-bin-without-hadoop/ spark 进行改名操作,把解压文件改名为spark
cd /spark/conf 进入conf页面进行环境变量的配置
第四步,配置环境变量
cp /usr/local/uploads/spark/spark-env.sh .
##把地址下的spark-env.sh复制到当前目录下##
cd ..
cd ..
cd uploads/spark 进入spark目录下
cp profile-spark2 /etc/profile 复制文件进行覆盖修改
source /etc/profile source一下文件
第五步,启动pyspark
cd ..
cd ..
cd spark/ 进入压缩好的spark目录下
./bin/pyspark 在bin目录下启动
启动界面如此,即正常启动完成。
第六步输入输出配置
cd conf/ 进入spark里面的conf/目录
cp log4j.properties.template log4j.properties 复制配置文件成一个新文件
vi log4j.properties 进入vi修改
:::tips
此处必须修改,输出才会简化
:::
第七步 尝试启动python程序
cd .. 返回spark界面
./bin/spark-submit /usr/local/uploads/spark/WordCount.py
启动成功,结束!
链接: https://pan.baidu.com/s/1wQLee8aZ7hbsBlwnmwBTvg?pwd=j4nf 提取码: j4nf