win10下spark+Python开发环境配置

Step0:安装好Java ,jdk

Step1:下载好:

Step2: 将解压后的hadoop和spark设置好环境变量:

在系统path变量里面+:

Step3:

  使用pip安装 py4j : pip install py4j

  如果没装pip那就先装一下

例程:wordcount.py

  运行worldcount例程发现,SPARK_HOME keyerror 然后 使用os设置了临时的环境变量。 麻蛋~ 发现重启一下编译器pycharm就好了

from pyspark import SparkContext
import os
os.environ["SPARK_HOME"] = "H:\Spark\spark-2.0.1-bin-hadoop2.7"
sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)


def word_count_per_doc(d):
    dict_tmp = {}
    wd = word_dict_b.value
    for w in d:
        dict_tmp[wd[w]] = dict_tmp.get(wd[w], 0) + 1
    return dict_tmp

print(doc.map(word_count_per_doc).collect())
print("successful!")

 

转载于:https://www.cnblogs.com/luntai/p/6272635.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值