pyspark 安装配置【linux && win】

最新推荐文章于 2024-05-12 20:36:53 发布

zxfBdd

最新推荐文章于 2024-05-12 20:36:53 发布

阅读量362

点赞数

分类专栏： spark Python

原文链接：https://blog.csdn.net/u013227399/article/details/102897606

版权

spark 同时被 2 个专栏收录

63 篇文章 4 订阅

订阅专栏

Python

51 篇文章 10 订阅

订阅专栏

一、windows 安装
1、下载spark
   http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 

2、配置spark 环境变量
set SPARK_HOME=d:\spark2.3.1
set PATH=%SPARK_HOME%\bin;%PATH%

3、安装python的pyspark模块
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

4、下载安装hadoop 或者 组件
1）下载hadoop软件包，并配置环境变量
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

2）下载hadoop-common-2.2.0-bin-master.zip（自己百度） 并配置环境变量
下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录,设置HADOOP_HOME环境变量，指向 d:\hadoop (解压后的下载文件), 并将HADOOP_HOME加到系统变量PATH中
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

二、linux 环境
1、下载spark
    wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 
    tar -zxvf  spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 环境变量
vi ~/.bash_profile
#将以下代码添加到文件中
export SPARK_HOME=/tools/spark2.3.1
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 

3、安装python的pyspark模块
   pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 


注释：
1、如果想在python项目中使用spark 功能，python开发环境除了安装pyspark 模块外，还需要同时安装spark软件包才能正常使用。
2、linux 环境只需要安装jdk、spark、pyspark（python模块）即可；windows 环境还需要额外安装hadoop组件，否则运行报错。

zxfBdd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark 安装配置【linux && win】

一、windows 安装1、下载spark http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量set SPARK_HOME=d:\spark2.3.1set PATH=%SPARK_HOME%\bin;%PATH%3、安装python的pyspark模块pip install pyspark -i https://pyp...
复制链接

扫一扫

专栏目录