Spark在伪分布式上搭建

最新推荐文章于 2024-09-12 18:18:07 发布

Anallve cityz-19

最新推荐文章于 2024-09-12 18:18:07 发布

阅读量52

点赞数

分类专栏：大数据编程文章标签：分布式 spark 大数据

本文链接：https://blog.csdn.net/m0_63692362/article/details/134822112

版权

大数据编程专栏收录该内容

4 篇文章 1 订阅

订阅专栏

第一步拷贝文件到uploads目录下（这里我创建了一个spark目录，把老师的文件全部放在了spark目录里，如果不跟我一样后面的cd目录操作自行修改）
相关文件链接在文档末尾

第二步检查python版本，版本不对要下载python3.0+

python -V                          检查python版本
yum -y install python3             安装python3，安装过程默认y（yes）

这样便完成安装，这个时候我们查看python版本发现还是python2，原因是python为默认编译方式，但是我们的python3环境已经存在，后续环境中已经配置完成。

第三步解压缩spark（进入spark目录下去解压缩）

cd /usr/local/uploads/spark           进入文件目录下
ll                                    查看文件信息

这里就能看见我的文件是传输正常的
在此基础上我进行解压缩操作

tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/

 mv spark-2.4.0-bin-without-hadoop/ spark              进行改名操作，把解压文件改名为spark

cd /spark/conf              进入conf页面进行环境变量的配置

第四步，配置环境变量

 cp /usr/local/uploads/spark/spark-env.sh .
##把地址下的spark-env.sh复制到当前目录下##
cd ..
cd ..
cd uploads/spark                  进入spark目录下
cp profile-spark2  /etc/profile   复制文件进行覆盖修改
source /etc/profile               source一下文件

第五步，启动pyspark

cd ..
cd ..
cd spark/     		进入压缩好的spark目录下
./bin/pyspark 		在bin目录下启动

启动界面如此，即正常启动完成。

第六步输入输出配置

cd conf/						进入spark里面的conf/目录
cp log4j.properties.template log4j.properties       复制配置文件成一个新文件
vi log4j.properties                                 进入vi修改

:::tips
此处必须修改，输出才会简化
:::

第七步尝试启动python程序

cd ..                   返回spark界面
./bin/spark-submit /usr/local/uploads/spark/WordCount.py

启动成功，结束！

链接: https://pan.baidu.com/s/1wQLee8aZ7hbsBlwnmwBTvg?pwd=j4nf 提取码: j4nf

Anallve cityz-19

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark在伪分布式上搭建

这样便完成安装，这个时候我们查看python版本发现还是python2，原因是python为默认编译方式，但是我们的python3环境已经存在，后续环境中已经配置完成。第一步拷贝文件到uploads目录下（这里我创建了一个spark目录，把老师的文件全部放在了spark目录里，如果不跟我一样后面的cd目录操作自行修改）第二步检查python版本，版本不对要下载python3.0+第三步解压缩spark（进入spark目录下去解压缩）启动界面如此，即正常启动完成。第五步，启动pyspark。
复制链接

扫一扫