Spark的jupyter notebook开发环境搭建及pyspark的使用

最新推荐文章于 2024-05-09 10:44:09 发布

Chungchinkei

最新推荐文章于 2024-05-09 10:44:09 发布

阅读量1.2k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_39315740/article/details/99292326

版权

本文介绍了如何搭建Spark的Jupyter Notebook开发环境，通过开启Hadoop和Spark服务，并设置jupyter notebook的远程服务。在环境中，由于`pyspark`不在默认的Python路径中，我们需要利用`sys.path.insert`动态添加Spark的路径，确保在Notebook中能成功导入`pyspark`模块，以便进行Spark开发工作。

摘要由CSDN通过智能技术生成

开启服务

启动Hadoop，Spark并开启jupyter notebook的远程服务：

[root@DW1 ~]# start-all.sh
# 我把spark的start-all.sh更名为start-spark-all.sh，不然有与hadoop重名的风险
[root@DW1 ~]# start-spark-all.sh
# root用户要加--allow-root
[root@DW1 ~]# jupyter notebook --allow-root

import pyspark

如果我们直接import pyspark，会提示无法找到对应的包，因为这个包在spark的目录下，不在sys.path里。
因此我们可以用sys.path.insert动态地加入spark包的位置（退出该脚本后就会失效，所以说是动态的）࿰

最低0.47元/天解锁文章

Chungchinkei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Spark的jupyter notebook开发环境搭建及pyspark的使用

开启服务启动Hadoop，Spark并开启jupyter notebook的远程服务：[root@DW1 ~]# start-all.sh# 我把spark的start-all.sh更名为start-spark-all.sh，不然有与hadoop重名的风险[root@DW1 ~]# start-spark-all.sh# root用户要加--allow-root[root@DW1 ~]...
复制链接

扫一扫

专栏目录