利用python开发spark项目需要在本地安装spark
一 本地安装
1.下载http://spark.apache.org/downloads.html
选择适合本机的hadoop版本,点击链接下载
2.点击链接完成下载
3. 解压文件
4.配置环境变量
新增SPARK_HOME=D:\spark\spark-2.2.0-bin-hadoop2.6
在系统变量Path中追加 %SPARK_HOME%/bin;
二 在本地启动spark
1.在cmd中输入D:\spark\hadoop-2.6.5\bin\winutils.exe chmod 777 D:\tmp\hive(需要先新建一个文件夹D:\tmp\hive)
2.运行spark-shell。注意不要在C盘,因为spark-shell运行会产生一些临时文件,在D盘spark中新建一个spark-shell文件,从cmd中进入此文件夹后再运行spark-shell即可。
3.进入spark-shell后输入spark.conf.get("spark.sql.catalogImplementation"),然后即可在交互环境下进行代码测试。
sparkshell文件夹中会出现