1.PySpark的搭建
https://blog.csdn.net/qq_36330643/article/details/78429109
PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。
在Pycharm中配置使用spark
1.在Pycharm中新建python项目,解释器使用的是python3.4
File=>Settings切换到Settings界面,点击Project:pyspark1中的“Project Structure“,进入下面界面,再点击“+Add Content Root”按钮,进入下图中间界面,选中/apps/spark/python/lib目录中的py4j-0.9-src.zip、pyspark.zip,最后点击OK。
.配置运行环境。在pychram中点击Run=>Edit Configurations切换到下面界面。
STEP1:配置默认的环境变量,在左侧选择(如图所示的红框)Python;
STEP2:点击Environment那里的…省略号;
STEP3:点击+号新增环境变量;
STEP4:新增两个环境变量,对应内容,第一个Name是SPARK_HOME,其Value是你对应安装SPARK的绝对路径(注,不包括bin),第二个Name是PYTHONPATH,其Value是”/apps/spark/python”.
在项目中新建python文件,然后输入from pyspark import SparkContext,无红线,表示spark配置正确。
此时就可以编写自己的基于Pyspark环境的python文件,并运行了。