Windows+spark+scala+hadoop的Spark(python)开发环境搭建

实习单位的主管让我在写接口之余搞搞Spark,搞了2天终于搞定了windows下的单点伪分布式模式了,搭环境的坑实在是太多、太多了。主要是现在网上的博客,假的太多了,就是为了骗访问量,太无耻!!!

希望看到我这篇博客的同志们,可以少走一些弯路!

注:   

  1. Spark暂不支持python3.6。

  2. 每一步一定要认真做,环境变量很容易出错。

  3.  我用的是 Anaconda4.2.0,创建的虚拟环境,将spark文件的pyspark复制到了虚拟环境的这个相对位置,(我的是D:\software installation address\python3.5\python\envs\py35\Lib\site-packages),用命令(conda install py4j)安装在虚拟环境中安装的。

  4. 如果您学接触python已经有一段时间了,请一定研究一下它的虚拟环境,会用了之后,你就会感受到它带给你的便利。(我这次采坑幸好有虚拟环境,否则我的python开发环境就乱套了!)。

话不多说,先来几张图!!

1. spark运行图

2. web端查看

3.实例程序运行图

4.实例代码:

import sys,os
os.environ['SPARK_HOME']="D:\software_install_address\spark-2.3.0-bin-hadoop2.7"
sys.path.append("D:\software_install_address\spark-2.3.0-bin-hadoop2.7\python")
from operator import add
from pyspark import SparkContext
import pyspark
if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))
    sc.stop()

6. 参考博客及下载地址总结:

7. 我自己用到的安装包

8. 我的安装包的下载地址:

直接去我百度云拿:链接:https://pan.baidu.com/s/1dQx_DNP2D2GoZSYYhQj1iw 
提取码:uzao 
不会让博友们浪费积分!!

如果这篇博客真的帮到你了,请给个好评!!

附录:

一、参考文献
    1. https://blog.csdn.net/songhaifengshuaige/article/details/79480491
    2. https://blog.csdn.net/zhongjunlang/article/details/80816711
    3. https://blog.csdn.net/proplume/article/details/79798289(注意spark不兼容python3.6)
    4. https://mp.weixin.qq.com/s?__biz=MzI5MzIwNDI1MQ==&mid=2650120932&idx=5&sn=fa924c8677411661a31df945b330c028&chksm=f474ba90c303338678dcd26edd5707d667c4bbe4a93b1f4e33591892cd858fd2da8db988be38&mpshare=1&scene=23&srcid=0117k0pBqKT5ucoXacbBHMfW&client=tim&ADUIN=278793087&ADSESSION=1517886579&ADTAG=CLIENT.QQ.5537_.0&ADPUBNO=26752#rd
    5.https://blog.csdn.net/quintind/article/details/79604591

二、各种软件下载地址(包含所有版本,自己也可以找一下清华、阿里等镜像源,那下载速度快、版本不全):
      1.scala下载地址:https://www.scala-lang.org/download/all.html
      2.spark下载地址:https://archive.apache.org/dist/spark/
      3.hadoop下载地址:https://archive.apache.org/dist/hadoop/common/
      4.winutils下载:https://github.com/steveloughran/winutils

图7(下图)

 

 

 

 

 

 

 

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值