环境: server : centos7 + annaconda2 + python2 + jupyter + spark+ hadoop
client : windows 10 + 浏览器
在服务器上安装spark + hadoop 集群之后,需要通过pyspark 来使用spark 集群,spark系统自带的只有pyspark命令行交互方式。目标是使用jupyter notebook 来进行交互调试。因此需要在服务器上部署anaconda2,以通过pip 安装jupyter 。
部署jupyter 之后,一般使用jupyter notebook 命令会在本地启用一个服务,此时可以在客户端浏览器访问。
https://blog.csdn.net/xmo_jiao/article/details/72674687?utm_source=itdadao&utm_medium=referral
重点在于pyspark 与jupyter 的连接配置:
(1) 配置jupyter 的配置,确定地址、端口和不启用浏览器
jupyter notebook --generate-config
vi /home/hadoop/.jupyter/jupyter_notebook_config.py
vi /home/hadoop/.jupyter/jupyter_notebook_config.py
增加如下几行:
c.NotebookApp.ip='192.168.12.7'
c.NotebookApp.open_browser=False
c.NotebookApp.port=8888
c.NotebookApp.ip='192.168.12.7'
c.NotebookApp.open_browser=False
c.NotebookApp.port=8888
(2) /home/hadoop/.bashrc (启动spark的用户目录下配置)
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PATH="/anaconda2/bin:$PATH" (非必需)
source ./bashrc
(3) 启动pyspark
$SPAR_HOME/bin/pyspark
(4) 远程访问
浏览器访问 http://192.168.12.7:8888
测试
from pyspark import *
print("pyspark remote access")
j
浏览器访问 http://192.168.12.7:8888
测试
from pyspark import *
print("pyspark remote access")