Pyspark windows开发环境构建
windows开发环境构建
- windows安装C:\hadoop-2.6.0
- windows安装spark的版本:spark-2.3.2-bin-hadoop2.6.tgz注意spark的版本,更高版本的Spark需要resource模块的支持,2.3.2不需要:
降低版本解决:No module named ‘resource’ 的问题
参考链接:https://blog.csdn.net/dylan_me/article/details/85120131 - 设置Hadoop Home及Spark_home
- 修改pyspark/work.py的文件,并且打包。规避:pyspark Connection reset by peer: socket write error错误
参考链接:https://blog.csdn.net/dongtest/article/details/84829602
5.配置python环境
参考链接:https://blog.csdn.net/shiheyingzhe/article/details/80714301
6. 运行代码验证
import os
import sys
os.environ[‘SPARK_HOME’] = r’C:\spark-2.4.0-bin-hadoop2.7’
sys.path.append(r’C:\spark-2.4.0-bin-hadoop2.7\python’)
sys.path.append(r’D:\anaconda\lib\site-packages’)
from pyspark import SparkConf, SparkContext
from pyspark.sql import Hi