windows下 pycharm+spark-1.6.2-bin-hadoop2.3+kafka配置

1、下载spark-1.6.2-bin-hadoop2.3,添加环境变量

再将%SPARK_HOME%;%SPARK_HOME%\bin;%SPARK_HOME%\sbin;添加到PATH中。

另外还需配置pycharm中run->Environment variables:

注意:PYTHONPATH是spark目录下的python目录,如果不配置,运行到sparkcontext()会报错

pyspark没有在pycharm中安装,直接安装的版本不匹配,太高,KafkaUtils.createStream这里会显示版本不匹配。直接将D:\spark-1.6.2-bin-hadoop2.3\python\pyspark文件夹放入到D:\python\Lib\site-packages目录下即可

2、hadoop相关配置:

 开始没配置hadoop,KafkaUtils.createStream这里报错,解决方法:

下载hadoop-2.3.0,https://archive.apache.org/dist/hadoop/common/,配置环境变量:

将%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin添加到PATH中,此时,还会有找不到winutils.exe的错误,于是下载hadoop-common-2.2.0-bin-master,将其中的winutils.exe拷贝到了D:\hadoop-2.3.0\bin目录下,问题解决

3、问题Spark Streaming's Kafka libraries not found in class path.Try one of the following

解决方案:

参照https://stackoverflow.com/questions/35560767/pyspark-streaming-with-kafka-in-pycharm

在$SAPRK_HOME/conf/目录下新建了spark-defaults.conf文件,增加了一句:

spark.jars.packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 ,问题解决

(查了一上午中午解决。。。)

4、总结:

由于是小白,以上步骤肯定绕圈子了,都是遇到问题查了好多资料,耗时很久,最后解决,原理还不懂,可能有些步骤不必要,现在先记录下来,等以后深入学习后再回过头来看。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值