在jupyter notebook上引用pyspark

最新推荐文章于 2024-01-07 22:05:18 发布

知天易or逆天难

最新推荐文章于 2024-01-07 22:05:18 发布

阅读量8.1k

点赞数 3

分类专栏： AI python spark 文章标签： spark

本文链接：https://blog.csdn.net/u013019431/article/details/80776662

版权

AI 同时被 3 个专栏收录

22 篇文章 3 订阅

订阅专栏

python

7 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

最近都是直接使用pyspark shell或者用pycharm来写spark的代码，但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多，但是在jupyter中没办法引入pyspark，导致不太方便，这里记录一下在jupyter notebook引入pyspark的方法。
环境：anaconda(推荐所有人都装，非常的方便)python3.6，spark2.0，操作系统为macos，要确定自己的spark可以通过shell启动

两种方案

一共有两种方案，大家自己看哪个更加方便

一：shell启动

PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

直接使用上述命令启动jupyter notebook就可以了，缺点就是输入麻烦

二：安装findspark

安装findspark，然后再jupyter notebook中引入并初始化一下就可以了，具体操作如下

切换到自己的python环境下，执行：
pip install findspark 

使用anaconda打开jupyter notebook，在文档中输入下列内容即可
import findspark
findspark.init()

from pyspark import SparkContext, SparkConf

知天易or逆天难

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
在jupyter notebook上引用pyspark

最近都是直接使用pyspark shell或者用pycharm来写spark的代码，但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多，但是在jupyter中没办法引入pyspark，导致不太方便，这里记录一下在jupyter notebook引入pyspark的方法。环境：anaconda(推荐所有人都装，非常的方便)python3.6，spark2.0，操作...
复制链接

扫一扫

专栏目录