上一篇讲完zeppelin配置spark,zeppelin启动太慢了,经常网页上interpreter改着就卡死,需要后面zeppelin.cmd窗后点击才有反应,而且启动贼慢。
因为本来就安装了Anaconda2,索性给jupyter也配置上spark;
查阅资料有两类:
方法一:给jupyter 安装上jupyter-scala kernerl 和jupyter-spark kernerl ,这个启动据说也慢,自己还未安装尝试。
方法二:仅仅pip install findspark 就行,这个方便简单(如果要学scala还得用第一种),这篇也是将这种方法
一:前提
java 8及以上、scala、jupyter(anaconda python)、spark安装弄好了,环境变量都配置好了,而且python pip的pyspark都已经弄好了,全都可以参考我之前的博文
讲讲简单关系,spark是用scala编写的,scala底层用的java 8及以上,使用python编写spark程序,需要用到pyspark第三方包去转为jvm中调用核心,而findspark可以提供简便的初始化spark环境,后续直接使用pyspark即可。
以下均是window 10下的安装
java 安装:https://mp.csdn.net/postedit/94853438
scala 安