- 安装好pycharm+Anaconda
- 将Hadoop,spark压缩包解压到本地D盘的同名文件夹下,配置环境变量》》系统变量HADOOP_HOME,SPARK_HOME,添加Path
- 解压支持hadoop2.9.0在windows上运行的hadoop_dll和winutils到hadoop的bin目录下,并将\bin64下的hadoop.dll复制到C:\Window\System32下
- 在Pycharm中File>>settings>>Project Struture>>Pyspark_project>>添加D:\spark-2.3.0-bin-hadoop2.7\python\lib 目录下的两个zip包
- 设置run/debug Configurations基本参数:environment variables 添加
PYTHONPATH:D:\spark-2.3.0-b in-hadoop2.7\python
SPARK_HOME:D:\spark-2.3.0-bin-hadoop2.7
- 在pycharm中进行本地测试
相关报错问题:
Error: could not open `G:\JAVA\jre 181\lib\amd64\jvm.cfg
出现这种情况大多是因为电脑上之前安装过JDK,卸载重装之后,运行java命令会出现error:could not open ...jvm.cfg的错误。
打开系统环境变量,查看PATH,会看到诸如此类的配置信息:
%SystemRoot%\system32;%SystemRoot%;......%JAVA_HOME%\lib;%JAVA_HOME%\bin
原因:在运行java时,默认会按照PATH中设置的路径去寻找java.exe文件,按上述PATH信息首先会去找%SystemRoot%\system32目录下的文件,而该目录下的java.exe对应的jdk安装目录已被卸载,自然会出现文件打不开的提示。看到这儿或许你明白了,简单的解决方法有以下两种:
1、直接删除system32目录(或windows目录,视PATH中的路径设置而定)下的java.exe(三个)(其实看下文件日期就会发现,该文件与当前安装的JAVA bin目录下的文件日期不一样);
2、直接将%JAVA_HOME%\bin;放在PATH路径的最前面
此时若pycharm中还是报错Error: could not open `G:\JAVA\jre 181\lib\amd64\jvm.cfg。则把电脑重新启动。
谨记:cmd打开命令行查看时,每次修改完系统变量以及环境变量都需要重新进入命令行