在Windows下使用Pycharm运行Spark代码

1.准备工作

java 1.8

spark-2.4.5-bin-hadoop2.7

下载页面:

https://archive.apache.org/dist/spark/spark-2.4.5/

下载地址:

https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

hadoop-2.7.1

下载页面:

https://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/

下载地址:

https://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz

winutils

下载地址:

https://github.com/duanjz/winutils

从github上下载项目 从hadoop-2.7.3/bin下将winutils.exe和winutils.pdb两个文件放入hadoop-2.7.1的bin文件夹下:

2.环境变量配置

Java环境变量配置

spark环境变量配置

 SPARK_HOME  D:\spark-2.4.5-bin-hadoop2.7

hadoop环境变量配置

 HADOOP_HOME D:\hadoop-2.7.1

path配置

%HADOOP_HOME%\bin 

%SPARK_HOME%\sbin

%SPARK_HOME%\bin

3.Pycharm下载pyspark

File->Settings->Project:你的项目名->Python Interpreter

通过勾选Specify version选择与Spark相同的版本

 下载成功后如图:

 4.Python版本WordCount

spark.py

# -- coding: GBK --
from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
textFile = sc.textFile("./word.txt")
wordCount = textFile.flatMap(lambda line: line.split(" "))
wordCount = wordCount.map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)
wordCount.foreach(print)

word.txt为执行python代码的相同目录下。如图所示:

5.运行结果

  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值