@R星校长
开发 PySpark 所需准备环境
1) 安装 python 环境
下载安装Anaconda。 详细见文档 “Anaconda安装及使用.docx”。
2) 安装 PyCharm
下载安装 PyCharm。
3) 官网下载 Spark 安装包
由于 PyCharm 开发 spark 需要本地 Spark 环境,所以要在官网中下载 Spark 安装包到本地(这里我们下载 Spark1.6 版本)。
A. 进入 Spark 官网,找到对应的 Spark 版本下载。
B. 将下载好的安装包解压到本地某个路径(路径中不要有空格和中文)
C. 将解压的路径中的…spark….\python\lib
下的以下两个压缩包解压
解压后:
注意:
★py4j 是一个用 Python 和 Java 编写的库。通过 Py4J,Python 程序能够动态访问 Java 虚拟机中的 Java 对象,Java 程序也能够回调 Python 对象。
★pyspark 是 Spark 为 Python 开发者提供的 API。
PyCharm 开发 Spark 应用程序
使用 PyCharm 开发 Spark 应用环境需要配置 Python 环境,我们使用的 Spark1.6 版本,Spark2.1 以下版本不支持 python3.6 版本,所以我们使用兼容性比较好的 Python3.5 版本,需要在 PyCharm 中配置。具体如下:
1) 打开 PyCharm 创建新的项目