Linux系统下Spark的下载与安装(pyspark运行示例)

最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark

1、版本要求

由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本

Spark和Hadoop版本对应关系如下:

Spark版本Hadoop版本
2.4.x2.7.x
3.0.x3.2.x

可进入终端查看Hadoop版本

hadoop version

我这里的版本是2.7.1,因此选择下载2.4版本的spark

Spark历史版本下载地址:Index of /dist/spark 

 找到适合自己的版本进行下载,这里我选择带有Hadoop scala的版本进行下载

2、Spark安装

Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里介绍Local模式(单机模式)的 Spark安装 

 (1)文件解压到指定位置

sudo tar -zxf ~/下载/spark-2.4.7-bin-hadoop2.7.tgz -C /usr/local/

 为了方便,还可以将文件夹重命名为spark,并更改文件所有者,下述的hadoop为用户名,更改为自己的用户名

sudo mv ./spark-2.4.7-bin-hadoop2.7/ ./spark
sudo chown -R hadoop:hadoop ./spark

(2)修改配置文件spark-env.sh

将临时文件复制,并修改

cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

在该文件首行添加

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

 这样配置过后,spark能将数据存储到hadoop的HDFS中,同样也能从HDFS中读取数据,建立起Hadoop和Spark的连接。

(3)修改环境变量

vim ~/.bashrc

在文件中添加spark的地址,以便能够快速访问

export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

不同的环境变量之间用":"隔开,田间PYTHONPATH主要是为了在python3中引入pyspark库

 然后输入命令让环境变量生效

source ~/.bashrc

3、Spark的验证

进入spark安装目录,并输入一段代码进行例子验证

bin/run-example SparkPi 2>&1 | grep "Pi is"

能够计算出Pi的值,说明spark已经安装成功啦!

 

接下来进行pyspark的使用,进入spark的安装目录,并输入命令

cd /usr/local/spark
bin/pyspark

然后你会看到一些error,出现报错

return types.CodeType(
TypeError: an integer is required (got type bytes)

这是由于pyspark对于高版本的python不兼容,建议python版本在3.6,我这里激活了一下anaconda安装下的虚拟环境,虚拟环境中,python版本为3.6

然后运行成功啦!

 至此就可以使用pyspark进行编程,这对不熟悉scala语言的人来说十分友好~


都看到这里了,给个小心心呗♥~

  • 24
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是在Linux系统上配置Pycharm中使用Python Spark的步骤: 1. 安装Java和Spark:首先需要安装Java和Spark。如果您已经安装了它们,请跳过此步骤。如果没有安装,请执行以下命令: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk wget https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz tar -xvf spark-3.1.1-bin-hadoop3.2.tgz ``` 2. 配置环境变量:为了在Pycharm中使用Spark,需要将Spark的路径添加到您的环境变量中。在终端中运行以下命令: ``` export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 其中,`/path/to/spark` 是Spark安装路径。如果您的Spark位于`/usr/local/spark`,则可以使用以下命令: ``` export SPARK_HOME=/usr/local/spark export PATH=$SPARK_HOME/bin:$PATH ``` 为了方便,您可以将这些命令添加到您的`.bashrc`文件中。 3. 安装PySpark:在Pycharm中使用Spark需要安装PySpark。您可以使用以下命令安装: ``` pip install pyspark ``` 4. 配置Pycharm:打开Pycharm并创建一个新项目。在项目设置中,选择Python解释器并确保已选择正确的Python版本。然后,单击“添加”按钮并添加以下行: ``` PYSPARK_PYTHON=/usr/bin/python3 PYSPARK_DRIVER_PYTHON=python3 ``` 然后,单击“环境变量”选项卡并添加以下行: ``` SPARK_HOME=/path/to/spark ``` 其中,`/path/to/spark` 是Spark安装路径。如果您的Spark位于`/usr/local/spark`,则可以使用以下行: ``` SPARK_HOME=/usr/local/spark ``` 5. 导入pyspark:在Pycharm中导入pyspark非常简单。只需在项目中创建一个Python文件并添加以下代码: ``` from pyspark import SparkContext sc = SparkContext("local", "First App") ``` 这将创建一个本地Spark上下文并打印出一条消息。您可以运行此代码以确保一切正常。 希望这些步骤能够帮助您在Linux系统上配置Pycharm中使用Python Spark

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值