Spark 安装成功界面
检验Spark(Python版)是否安装成功:
# pyspark
楼主已经安装完虚拟机,以下操作为单机版Python版Spark安装步骤:
*安装虚拟机
*安装java
检验是java否安装成功:
# java –version
*安装单机版Spark
并不一定需要安装hadoop, 只需要选择特定的spark版本即可. 去spark官网下载, 在没有hadoop的环境下, 可以选择:spark-2.4.4-bin-hadoop2.7
下载后上传到虚拟机指定安装目录,解压
# tar –xzvf spark-2.4.4-bin-hadoop2.7.tgz
解压完之后,会有一个这样的目录spark-2.4.4-bin-hadoop2.7,可以重命名,命令如下(建议有版本标识):
#mv spark-2.4.4-bin-hadoop2.7 spark-2.4
之后配置环境变量
#sudo vim /etc/profile
在最后面加上,(注意在这要结合自己的用户名和文件名)
#export SPARK_HOME=/home/resources/spark-2.4
#export PATH=$SPARK_HOME/bin:$PATH
使环境变量生效
#source /etc/profile
*** 启动pyspark产生NameError: name 'memoryview' is not defined
产生原因
Python版本问题,默认Red Hat Enterprise Linux 6.3的python版本为2.6.6,升级python版本,可解决该问题。
检查当前Linux版本和Python版本方法
# more /etc/redhat-release
# python -V
*升级Python
(一)下载Python安装包,以3.6.6版本为例
# wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz
# tar -xzvf Python-3.6.6.tgz
(二)编译安装
# cd Python-3.6.6
# ./configure --prefix=/usr/local
# make
# make install 或者 make altinstall
# make clean
注意:make install 与 make altinstall的区别:
install 除了做 altinstall 外还会做 bininstall , maninstall 共三个动作bininstall 就是在处理 Symbolic Link Chain 的相关事务, 而 maninstall 则是在产生 unversioned manual pages, 所以, 很明显的, 不使用 bininstall 可以避免 python install 时 update link 的问题。如果使用make install,你将会看到在系统中有两个不同版本的Python在/usr/bin/目录中。这将会导致很多问题,而且不好处理。
(三)设置环境参数
# rm /usr/bin/python
# ln -s /usr/local/bin/python3.6 /usr/bin/python
(四)更改yum
由于升级 Python 之后,默认的python指向了python3.6,yum不能正常使用,错误信息如下:
需要编辑 yum 的文件,
#vim /usr/bin/yum
将第一行记录#!/usr/bin/python改为#!/usr/bin/python2.6
至此,完成单机Spark(Python版)的安装!