服务器配置jupyter
1.登陆服务器
2.安装anaconda :去anaconda官网找到linux版本的anaconda,复制网址,在终端输入 wget +网址下载 之后 bash+‘……sh’安装conda
2.启动Jupyter,配置Jupyßter
(1)输入jupyter notebook --generate-config 进入配置文件
(2)终端输入ipython 进入ipython,输入from notebook.auth import passwd
passwd()
输入密码,确认密码,得到密文,复制下来
(3)修改配置文件
c.Notebook.App.ip=‘*’
c.Notebook.App.password=u’复制下来的密文’
c.Notebook.App.open_browser=False
c.NotebookApp.port=8096(这个端口可以随便指定,但不能是别人用过的)
终端输入jupyter notebook 启动
在浏览器中输入<服务器的ip:端口号>即可在浏览器中打开jupyter
jupyter 配置多个核
1.安装ipykernel:在终端输入conda install ipykernel
2.创建带kernel的虚拟环境
conda create -name py27 python=2.7 ipykernel
3.输入conda env list查看是否创建了新的虚拟环境
4.进入创建的虚拟环境:conda activate py27
5.将创建的虚拟环境加入到jupyter 中: python -m ipykernel install --user --name py27 --display-name “py27”
6.终端输入jupyter notebook 启动。
连接服务器上的spark hive
1.进入当前的conda虚拟环境:
pip install findspark
conda install pyspark
2.将环境变量改为os.environ[‘PYSPARK_PYTHON’] = “/usr/bin/python”
os.environ[‘PYSPARK_DRIVER_PYTHON’] = “/usr/bin/python”
import os
os.environ[‘PYSPARK_PYTHON’] = “/usr/bin/python”
os.environ[‘PYSPARK_DRIVER_PYTHON’] = “/usr/bin/python”
每个spark程序前面都要加一段以下代码:
import findspark
findspark.init(’/usr/local/spark-current/’)
from pyspark import *
from pyspark.sql import *
sparkconf = (SparkConf().set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
.setAppName(“cljtest”)
.set(“spark.dynamicAllocation.minExecutors”, “100”)
.set(“spark.dynamicAllocation.maxExecutors”, “200”)
.set(“spark.rpc.message.maxSize”, “2000”))
sc = SparkContext(conf=sparkconf)
hc = HiveContext(sc)