开启服务
启动Hadoop,Spark并开启jupyter notebook的远程服务:
[root@DW1 ~]# start-all.sh
# 我把spark的start-all.sh更名为start-spark-all.sh,不然有与hadoop重名的风险
[root@DW1 ~]# start-spark-all.sh
# root用户要加--allow-root
[root@DW1 ~]# jupyter notebook --allow-root
import pyspark
如果我们直接import pyspark,会提示无法找到对应的包,因为这个包在spark的目录下,不在sys.path里。
因此我们可以用sys.path.insert动态地加入spark包的位置(退出该脚本后就会失效,所以说是动态的)