Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:
安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。
这里安装遇到一个小坑,简单说下。
如果网络没问题的话可以直接cmd进入命令行,
时候输入命令pip install pyspark,就可以安装了。但是默认是pyspark的latest版本,我写帖子的时候最后一版是2.4.0但是我实际环境用的是Spark2.3.1。而且还有个严重问题,我的公司电脑有网络限制,安装命令无法现在安装包。
所以我用的办法是先把安装包下来之后本地安装。
首先进入python官网: https://www.python.org/
进入最上边的Pypi
之后搜索pyspark
出来列表里第一个就是最后一个版本2.4.0,直接点进去
之后点击release history,进可以进去选版本了。这里我下载的的是2.3.1版,选择好版本之后,点击download files,下载pyspark-2.3.1.tar.gz
下载之后,运行CMD命令。
执行命令:pip install C:\Downloads\pyspark-2.3.1.tar.gz(安装包放到哪写哪)
安装过程如下图,最后提示安装成功:
之后进入IDEA创建第一个Python_Spark程序.
引入spark相关依赖,如果不安装pyspark,下边引用语句会直接报错.
from pyspark import SparkContext, SparkConf
import os
os.environ['JAVA_HOME']='D:\Java\jdk1.8.0_92'
conf = SparkConf().setMaster("local").setAppName("test_app1")
sc = SparkContext(conf=conf)
注意这里我运行的时候报了一个下边的错,这个错误困扰了我一天,网上找就是让加上我上边的那两句话设置JAVA_HOME的那个,我设置之后一直不好使。
raise Exception("Java gateway process exited before sending its port number")
Exception: Java gateway process exited before sending its port number
最后终于发现了问题,我的JDK路径里有空格:C:\Program Files (x86)\Java,
重要事情说3遍
我的JDK路径里有空格,我的JDK路径里有空格,我的JDK路径里有空格。
后来我改成上边代码里的JDK路径,就好使了。问题解决,明天继续学习。