基于python3和pip3已安装的基础上:
-
官网下载并安装jdk(https://www.oracle.com/java/technologies/javase-downloads.html),跟着默认步骤走就可以
-
下载spark(http://spark.apache.org/downloads.html)
下载完成后解压并移动到/usr/local文件夹。sudo mv spark-3.0.0-preview2-bin-hadoop2.7 /usr/local
在spark的安装路径(/usr/local)中找到./conf/spark-env.sh.template重命名为spark-env.sh。
sudo cp spark-env.sh.template spark-env.sh
执行which python3拿到python3的路径(/usr/local/bin/python3)
which python3
并添加python3路径 export PYSPARK_PYTHON=/usr/local/bin/python3 到spark-env.sh
vim ~/.bash_profile在文件中添加export SPARK_HOME=/usr/local/spark-3.0.0-preview2-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
然后执行source ~/.bash_profile
-
安装pyspark
pip install pyspark
可能比较慢,耐心等待
-
在terminal中执行pyspark