python虚拟环境可以运行pyspark_windows下使用pycharm配置pyspark环境

首先电脑中安装有java8和python. (注意配置好java的环境变量,自行搜索即可,不然后面在pycharm中运行会报错)

安装spark

2. 设置环境变量:

HADOOP_HOME=C:\winutils\hadoop-2.7.1

SPARK_HOME=C:\Spark\spark-2.2.0-bin-hadoop2.7

3. 创建一个目录tmp/hive

运行下面命令让该文件夹获取权限:

C:\winutils\hadoop-2.7.1\bin\winutils.exe chmod 777 C:\tmp\hive

4.验证是否spark安装成功:

C:\Spark\spark-2.2.0-bin-hadoop2.7>bin\spark-shell

201907301564479532163803.png

pycharm设置

1. 创建一个虚拟环境File -> Settings -> Project Interpreter -> select Create Virtual Environment

2. 在Project Interpreter里,选择show all,选择新建的虚拟环境,点击Show paths for the selected interpreter

选项

201907301564479283959024.png

3. 将一下两个path加入

D:/spark-2.4.3-bin-hadoop2.7/python

D:/spark-2.4.3-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip

201907301564479398440747.png

最后,在pycharm中运行文件时,最前面加上(这是因为我上面配置好了各种环境变量还是各种提示没有JAVA_HOME环境变量和找不到hadoop,只好写上这两行):import os

os.environ['JAVA_HOME'] = "C:\Program Files\Java\jdk1.8.0_161" # 你自己的java目录

os.environ['HADOOP_HOME'] = "D:\winutils\hadoop-2.7.1" # 你自己的hadoop目录

可以使用如下代码进行测试:from pyspark import SparkContext

sc = SparkContext('local',"count app")

words = sc.parallelize(

['scala',

'java',

'hadoop',

'spark',

'pyspark']

)

counts = words.count()

print("number of words:",counts)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值