windows下 pycharm+spark-1.6.2-bin-hadoop2.3+kafka配置

最新推荐文章于 2024-07-06 02:41:11 发布

_yxy_

最新推荐文章于 2024-07-06 02:41:11 发布

阅读量756

点赞数 1

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011643312/article/details/82255949

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、下载spark-1.6.2-bin-hadoop2.3，添加环境变量

再将%SPARK_HOME%;%SPARK_HOME%\bin;%SPARK_HOME%\sbin;添加到PATH中。

另外还需配置pycharm中run->Environment variables:

注意：PYTHONPATH是spark目录下的python目录，如果不配置，运行到sparkcontext()会报错

pyspark没有在pycharm中安装，直接安装的版本不匹配，太高，KafkaUtils.createStream这里会显示版本不匹配。直接将D:\spark-1.6.2-bin-hadoop2.3\python\pyspark文件夹放入到D:\python\Lib\site-packages目录下即可

2、hadoop相关配置：

 开始没配置hadoop,KafkaUtils.createStream这里报错，解决方法：

下载hadoop-2.3.0，https://archive.apache.org/dist/hadoop/common/，配置环境变量：

将%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin添加到PATH中，此时，还会有找不到winutils.exe的错误，于是下载hadoop-common-2.2.0-bin-master，将其中的winutils.exe拷贝到了D:\hadoop-2.3.0\bin目录下，问题解决

3、问题Spark Streaming's Kafka libraries not found in class path.Try one of the following

解决方案：

参照https://stackoverflow.com/questions/35560767/pyspark-streaming-with-kafka-in-pycharm

在$SAPRK_HOME/conf/目录下新建了spark-defaults.conf文件，增加了一句：

spark.jars.packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 ,问题解决

（查了一上午中午解决。。。）

4、总结：

由于是小白，以上步骤肯定绕圈子了，都是遇到问题查了好多资料，耗时很久，最后解决，原理还不懂，可能有些步骤不必要，现在先记录下来，等以后深入学习后再回过头来看。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。