前提:安装好了Hadoop和Spark
Jupyter
bash $AnacondaDistributionFile
vim ~/.bashrc
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON=python路径
pyspark启动。
若指定pyspark的python版本为3以上,那么需要当前环境中默认python版本为2.x,否则会报错,原因是spark自带python脚本是用python2.x写的。