大数据——spark安装部署和python环境配置

本文档详细介绍了如何在master和data两台服务器上配置Spark,包括下载、环境变量设置、配置文件修改等步骤,并指导如何启动和测试Spark。此外,还阐述了如何安装Anaconda以及配置远程访问Jupyter Notebook,最后展示了pyspark与Python的结合使用以及Jupyter的访问界面。
摘要由CSDN通过智能技术生成

需要配置多台服务器,实验环境:master和data两台服务器,已安装好hadoop,可参考前文!!!

1.spark安装

  • master安装

(1)下载scala和spark

(2)解压并配置环境变量

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3)配置spark-env.sh文件

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

(4)配置slaves文件

data
  • data安装

(1)下载scala和spark

(2)解压并配置环境变量

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3)配置spark-env.sh文件

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

启动和测试:

进入到sbin目录启动:start-all.sh或者start-master.sh、start-slaves.sh,输入jps:

master显示: data显示:

然后启动pyspark:

pyspark 

可以访问成功,然后更换模式:

pyspark --master spark://master_ip:7077

2. 配置Anaconda和远程访问Jupyter

(1)安装Anaconda

安装:

配置环境变量:

(2)远程配置Jupyter

参考:https://blog.csdn.net/MuziZZ/article/details/101703604

(3)pyspark和python结合

export PATH=$PATH:/root/anaconda3/bin
export ANACONDA_PATH=/root/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/jupyter-notebook
#PARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

访问界面:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

樱缘之梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值