Spark在伪分布式上搭建

第一步拷贝文件到uploads目录下(这里我创建了一个spark目录,把老师的文件全部放在了spark目录里,如果不跟我一样后面的cd目录操作自行修改)
相关文件链接在文档末尾

image.png
第二步检查python版本,版本不对要下载python3.0+

python -V                          检查python版本
yum -y install python3             安装python3,安装过程默认y(yes)

image.png
这样便完成安装,这个时候我们查看python版本发现还是python2,原因是python为默认编译方式,但是我们的python3环境已经存在,后续环境中已经配置完成。

第三步解压缩spark(进入spark目录下去解压缩)

cd /usr/local/uploads/spark           进入文件目录下
ll                                    查看文件信息

image.png
这里就能看见我的文件是传输正常的
在此基础上我进行解压缩操作

tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/

image.png

 mv spark-2.4.0-bin-without-hadoop/ spark              进行改名操作,把解压文件改名为spark

image.png

cd /spark/conf              进入conf页面进行环境变量的配置

第四步,配置环境变量

 cp /usr/local/uploads/spark/spark-env.sh .
##把地址下的spark-env.sh复制到当前目录下##
cd ..
cd ..
cd uploads/spark                  进入spark目录下
cp profile-spark2  /etc/profile   复制文件进行覆盖修改
source /etc/profile               source一下文件

第五步,启动pyspark

cd ..
cd ..
cd spark/     		进入压缩好的spark目录下
./bin/pyspark 		在bin目录下启动

image.png
启动界面如此,即正常启动完成。

第六步输入输出配置

cd conf/						进入spark里面的conf/目录
cp log4j.properties.template log4j.properties       复制配置文件成一个新文件
vi log4j.properties                                 进入vi修改

image.png
:::tips
此处必须修改,输出才会简化
:::

第七步 尝试启动python程序

cd ..                   返回spark界面
./bin/spark-submit /usr/local/uploads/spark/WordCount.py

image.png
启动成功,结束!

链接: https://pan.baidu.com/s/1wQLee8aZ7hbsBlwnmwBTvg?pwd=j4nf 提取码: j4nf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值