最近家里新买了台电脑,环境什么的又得重新安装,干脆沉淀下一篇博客记录下整个过程,省得再去搜索。
在windows环境用pycharm开发pyspark首先我们得知道什么是pyspark。首先Apache Spark用Scala编程语言编写。为了支持带有Spark的Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,你就可以使用Python编程语言来处理RDD。正是由于有了一个名为Py4j的库,他们才能够实现这一目标。
步骤一:配置环境
1、第一因为spark需要在jvm中运行,所以jdk是必须安装得,我配置得java版本是1.8.0_144;
2、第二安装spark版本2.44下载链接,下载后直接解压到D盘根目录下;
3、第三安装python,我安装得是版本3.7.2
步骤二:pycharm创建项目并添加
1、打开pycharm-(左上角)file---settings--Project Interpreter--选择你的python环境