首先,如果你用Anaconda,根本不用装一堆JDK SCALA之类!
(当然,如果你不用的话,有两点需要注意:环境变量不能有空格,拒绝装在Program Files中!jkd版本不要过高!)
可能大多数人和我一一样,使用笔记本,一般是windows系统,但想学习spark,不想装Linux或虚拟机,其实windows也可以直接用spark,然后百度查询出很多spark在windows安装的教程,绝大多数是先让安装Java,然后是scala,接着是spark,最后还有Hadoop,还要注意Java和scala的版本兼容问题,还要注意scala与spark版本兼容问题,还要注意Java和scala安装路径不能有空,简直一大堆问题,一大堆的坑,我反复重装了两次java、四次 scala,搞了一天,最后在cmd命令窗口终于看到spark安装成功的标志,开心的要死。然后,想着在jupyter上用pyspark,按网上各种教程设置了半天,头都大了,因为按前面的操作安装,spark并不在Anaconda的库里面的,无法加载进来用。耗了两个多小时,最后我直接把\spark\python下的pyspark文件夹和l\spark\python\lib的py4j-0.10.7-src.zip解压以后,直接拷贝到Anaconda2\Lib\site-packages 下,然后在jupyter中import pyspark,成功了。后来再想想,是不是根本不需要前面安装的那一堆java啦、scala啦,甚至不用后面装的