最近要做日志分析 所以想搭建spark环境 但是又觉得双系统有点麻烦 而且文件量不大 所以就用了windows系统。
在网上看了很多博客 有篇博客介绍说spark不支持python3.6 但是我发现搭建以后测试程序也成功运行了 所以写出来跟大家分享一下。
把错误写在前头:我一开始用的jdk1.7,在控制台输入pyspark的时候一直报版本不匹配的错误,后来我换成了jdk1.8就好了。
下载jdk1.8的时候,官网上一直下载不了,我就找到了一个百度网盘的资源下载了。
1.下载spark
网址:http://spark.apache.org/downloads.html
直接点击下载即可。Hadoop2.7就是需要的hadoop版本。
2.下载hadoop
网址:http://hadoop.apache.org/releases.html#Download
左侧是版本,选择2.7.6,点击对应的binary进入下载页面。
直接点击下载即可。
3.python与pycharm下载
这些都是我之前弄好的,所以就不赘述了。这一步请直接将python的环境变量配置好。不过有一点要注意的是: