①准备工作:
spark-2.1.0-bin-hadoop2.7.tgz 链接:https://pan.baidu.com/s/17DvaJISJ3TFFR67xwGdqxw 提取码:mkfs
winutils.exe 链接:https://pan.baidu.com/s/13pLTobO5r3SQTmVowrIWiA 提取码:pl3z
hadoop-2.7.1.tar.gz 链接:https://pan.baidu.com/s/1VZteqilTSpcMOg0r0Bw2Fw 提取码:flsh
python 3.5 (自行下载,版本大于3.5的spark这个版本不支持,一定要64位哦)
② 安装 spark ,解压后,配置好环境变量即可,cmd中输入 spark-shell 无报错
安装Hadoop, 解压后,配置好环境变量,将上面的winutils.exe放入Hadoop的bin目录
然后在Hadoop与bin同级的目录中创建tmp文件夹,tmp目录里创建hive文件夹,没错都是空的
然后用cmd命令行, 到Hadoop的bin目录哦,输入:winutils.exe chmod 777 [这里写tmp所在的目录路径] , 这个命令是给tmp授权
③ 将spark\python\pyspark 这个文件夹放入Python 安装目录:Python\Lib\site-packages 下
④ cmd中输入 pip install py4j
⑤cmd中输入 pyspark 无报错即可
⑥ Python中直接开箱使用即可