jupyter notebook on spark 远程配置

环境: server : centos7 + annaconda2 + python2 + jupyter + spark+ hadoop
      client :  windows 10 + 浏览器

在服务器上安装spark + hadoop 集群之后,需要通过pyspark 来使用spark 集群,spark系统自带的只有pyspark命令行交互方式。目标是使用jupyter notebook 来进行交互调试。因此需要在服务器上部署anaconda2,以通过pip 安装jupyter 。
部署jupyter 之后,一般使用jupyter notebook 命令会在本地启用一个服务,此时可以在客户端浏览器访问。

https://blog.csdn.net/xmo_jiao/article/details/72674687?utm_source=itdadao&utm_medium=referral

重点在于pyspark 与jupyter 的连接配置:
(1) 配置jupyter 的配置,确定地址、端口和不启用浏览器
 jupyter notebook --generate-config
 vi /home/hadoop/.jupyter/jupyter_notebook_config.py
 增加如下几行:
c.NotebookApp.ip='192.168.12.7'
c.NotebookApp.open_browser=False
c.NotebookApp.port=8888

(2) /home/hadoop/.bashrc  (启动spark的用户目录下配置)
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PATH="/anaconda2/bin:$PATH"  (非必需)
source ./bashrc
(3) 启动pyspark
 $SPAR_HOME/bin/pyspark
(4) 远程访问
  浏览器访问 http://192.168.12.7:8888
 
   测试
    from pyspark import *
    print("pyspark remote access")
j
阅读更多
下一篇使用beautifulsoup 处理抓取的网页内容
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭