Windows下配置spark环境(IDEA和Pycharm)

事前准备

配置spark之前需要在windows下配置好Hadoop.可以参考此教程: Windows下安装Hadoop。首先在官网下载包含hadoop的spark二进制包。尽量选择和已经配置好的hadoop版本相同或者相近的。此时需要注意,一般官网会给出这个版本的spark和哪一版本的scala语言相适配。
依据官网给出的提示,去scala官网下载相对应的scala版本,安装并配置环境变量。
之后,安装python,并配置环境变量。(一般而言,python不用配置)

环境变量

将spark安装包解压后就可以配置环境变量了,具体的如下图:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
spark\bin在path里面配置。

下一步配置

之后,将spark安装目录下python目录下的pyspark拷贝放在python\Lib\site-packages文件夹下。
在这里插入图片描述
在这里插入图片描述
然后,在命令行,进入python的scripts文件夹下,运行:pip install py4j安装py4j库。
重新打开cmd窗口,运行spark-shell,就可以进入spark的scala shell交互式界面。使用":quit"退出的时候,可能发现提示无法删除某文件,这是windows下运行spark的固有问题,目前无解,不用太在意。
也可以输入pyspark进入spark的python交互界面。

IDEA下使用scala语言运行spark程序

new project —> scala (右边选择IDEA),新建一个一般的scala项目。
在这里插入图片描述
File —> Project Struture —> Libraries,点击‘+’,导入scala的jar包。
在这里插入图片描述
再点击Modules —> dependenices,选择相应的spark jar包。
在这里插入图片描述
src下新建一个scala class, 命名为wordcount, 拷贝如下代码:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.log4j.{Level,Logger}

object WordCount {
  def main(args: Array[String]) {
    //屏蔽日志
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    val inputFile =  "input/word.txt"
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val textFile = sc.textFile(inputFile)
    val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
    wordCount.foreach(println)
  }
}

src同级目录新建一个input文件,里面可以放一些文本文件作为输入,运行就可以得到结果。

Pycharm下利用python调试spark代码

只需要新建一个pure python项目,输入如下代码:

# -*- coding:utf8-*-
from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile = "word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
wordCount.foreach(print)

构建一个word.txt输入文件
在这里插入图片描述
运行即可。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值