实习记录一

最新推荐文章于 2021-07-06 03:04:51 发布

暮后

最新推荐文章于 2021-07-06 03:04:51 发布

阅读量103

点赞数

分类专栏：大数据技术

本文链接：https://blog.csdn.net/qq_35753857/article/details/103610630

版权

大数据技术专栏收录该内容

2 篇文章 0 订阅

订阅专栏

服务器配置jupyter
1.登陆服务器
2.安装anaconda ：去anaconda官网找到linux版本的anaconda，复制网址，在终端输入 wget +网址下载之后 bash+‘……sh’安装conda
2.启动Jupyter,配置Jupyßter
(1)输入jupyter notebook --generate-config 进入配置文件
（2）终端输入ipython 进入ipython，输入from notebook.auth import passwd
passwd()
输入密码，确认密码，得到密文，复制下来
（3）修改配置文件
c.Notebook.App.ip=‘*’
c.Notebook.App.password=u’复制下来的密文’
c.Notebook.App.open_browser=False
c.NotebookApp.port=8096(这个端口可以随便指定，但不能是别人用过的)
终端输入jupyter notebook 启动
在浏览器中输入<服务器的ip:端口号>即可在浏览器中打开jupyter

jupyter 配置多个核
1.安装ipykernel：在终端输入conda install ipykernel
2.创建带kernel的虚拟环境
conda create -name py27 python=2.7 ipykernel
3.输入conda env list查看是否创建了新的虚拟环境
4.进入创建的虚拟环境：conda activate py27
5.将创建的虚拟环境加入到jupyter 中: python -m ipykernel install --user --name py27 --display-name “py27”
6.终端输入jupyter notebook 启动。

连接服务器上的spark hive
1.进入当前的conda虚拟环境:
pip install findspark
conda install pyspark
2.将环境变量改为os.environ[‘PYSPARK_PYTHON’] = “/usr/bin/python”
os.environ[‘PYSPARK_DRIVER_PYTHON’] = “/usr/bin/python”

import os
os.environ[‘PYSPARK_PYTHON’] = “/usr/bin/python”
os.environ[‘PYSPARK_DRIVER_PYTHON’] = “/usr/bin/python”

每个spark程序前面都要加一段以下代码：
import findspark
findspark.init(’/usr/local/spark-current/’)
from pyspark import *
from pyspark.sql import *
sparkconf = (SparkConf().set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
.setAppName(“cljtest”)
.set(“spark.dynamicAllocation.minExecutors”, “100”)
.set(“spark.dynamicAllocation.maxExecutors”, “200”)
.set(“spark.rpc.message.maxSize”, “2000”))
sc = SparkContext(conf=sparkconf)
hc = HiveContext(sc)

暮后

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
实习记录一

服务器配置jupyter1.登陆服务器2.安装anaconda ：去anaconda官网找到linux版本的anaconda，复制网址，在终端输入 wget +网址下载之后 bash+‘……sh’安装conda2.启动Jupiter,配置Jupiter(1)输入jupyter notebook --generate-config 进入配置文件（2）终端输入ipython 进入ipyt...
复制链接

扫一扫