【SPARK本地WIndows运行词云】贵州大学SPark初级编程本地运行词云。

本文档详细记录了在Windows环境下配置Hadoop、Spark和Python环境的过程,以及遇到的Python版本过高导致的运行错误。通过降低Python版本至3.7并设置环境变量PYSPARK_PYTHON,最终成功运行Pyspark词云代码。
摘要由CSDN通过智能技术生成

1、前置

前提本地hadoop、java、spark都安装好。
1、winutils.exe复制到hadoop安装目录下的bin目录里面;并将hadoop.dll文件复制到c:\windows\system32
2、建立pycharm文件,把词云代码敲进去:

iimport logging
import os
from pyspark import SparkContext
//本地词云文件存放位置
test_file_name="C://Users//一han啊//Desktop//作业//大数据技术与应用//pythonProject//WordCount.txt"
sc=SparkContext("local","WordCountPyDemo")
text_file=sc.textFile(test_file_name)
counts=text_file.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b).foreach(print)
sc.stop

3、在插件下载页面把py4j和pyspark下载。在这里插入图片描述
4、修改项目的运行的环境变量:在这里插入图片描述
5、点击edit configureations,点击Environment variables右端小图标:添加两个环境变量
在这里插入图片描述其中PYTHONPATH是你的spark路径下的python文件夹,SPARKHOMME是你的spark路径
在这里插入图片描述

运行报错:
在这里插入图片描述
错误原因:python版本过高。
解决方法:降低python版本到3.7;这应该是pyspark支持的问题。
Python下载网址:下载python-3.7.0
下载完后更新pycharm运营Python为3.7.0版本,具体步骤:

1、插件下载页面点击点击Python,点击shouall后点击+号进去到添加python解释器页面,点击System interperter:
在这里插入图片描述
2、点击右边三个点进去添加页面、浏览到你刚才安装的Python3.7.0,,选择python.exe,点击ok一路返回到插件下载,把刚才的py4j和pyspark下回去。
在这里插入图片描述
3、进去前面的edit configuration界面,选择Python3.7.0,并应用:
在这里插入图片描述
4、点击运行。报新的错误:
在这里插入图片描述
解决方法:
进去电脑设计–高级设置–环境变量设置,添加蓝色的环境变量:变量名:PYSPARK_PYTHON
值:你刚才安装python3.7.0路径里面的那个python.exe,添加完环境变量后重启电脑(重点)。
在这里插入图片描述
重置后重新运行,成功:
在这里插入图片描述
修改前:python3.9+hadoop2.7+spark2.5.1
修改后:python3.7+hadoop2.7+spark2.5.1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值