1、下载spark-1.6.2-bin-hadoop2.3,添加环境变量
再将%SPARK_HOME%;%SPARK_HOME%\bin;%SPARK_HOME%\sbin;添加到PATH中。
另外还需配置pycharm中run->Environment variables:
注意:PYTHONPATH是spark目录下的python目录,如果不配置,运行到sparkcontext()会报错
pyspark没有在pycharm中安装,直接安装的版本不匹配,太高,KafkaUtils.createStream这里会显示版本不匹配。直接将D:\spark-1.6.2-bin-hadoop2.3\python\pyspark文件夹放入到D:\python\Lib\site-packages目录下即可
2、hadoop相关配置:
开始没配置hadoop,KafkaUtils.createStream这里报错,解决方法:
下载hadoop-2.3.0,https://archive.apache.org/dist/hadoop/common/,配置环境变量:
将%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin添加到PATH中,此时,还会有找不到winutils.exe的错误,于是下载hadoop-common-2.2.0-bin-master,将其中的winutils.exe拷贝到了D:\hadoop-2.3.0\bin目录下,问题解决
3、问题Spark Streaming's Kafka libraries not found in class path.Try one of the following
解决方案:
参照https://stackoverflow.com/questions/35560767/pyspark-streaming-with-kafka-in-pycharm
在$SAPRK_HOME/conf/目录下新建了spark-defaults.conf文件,增加了一句:
spark.jars.packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 ,问题解决
(查了一上午中午解决。。。)
4、总结:
由于是小白,以上步骤肯定绕圈子了,都是遇到问题查了好多资料,耗时很久,最后解决,原理还不懂,可能有些步骤不必要,现在先记录下来,等以后深入学习后再回过头来看。