我们从pyspark就可以看出来 是python与spark俩者的结合,所以我们就需要在vm里面安装python,和spark
第一步:
准备python
此时的python 即 Anaconda 为一个.sh文件可以直接运行:
bash Anaconda3-5.1.0-Linux-x86_64.sh
当你运行后会发现有一个提示:
它是指当前没有安装bzip2,所以我们需要安装bzip2,不要慌,我们可以通过yum在线安装,但你需要切换到管理员用户才能使用
代码为:
yum -y install bzip2
当出现下面代码即为安装成功
接下来我们继续bash 那个.sh文件
bash Anaconda3-5.1.0-Linux-x86_64.sh
进去之后一直回车直到出现y/n框,输入yes,继续回车然后就开始安装了,所以你就静静的等一会,最后输入yes
安装完之后,更新配置文件,这个bashrc文件是一个隐藏文件,存在于用户主体目录中
source ./bashrc
更新完之后运行python就会看到下面图中的代码:
有一个很重要的一点就是你使用哪个用户安装 就安装那哪个用户目录下 也就只有这个用户可以使用 切记.切记!!!
如果你使用的用户安装时权限不够,你可以使用visudo,这个命令会直接进入/etc/sudoers文件,
打开之后在root下面加入你的用户就好了
# User privilege specification
root ALL=(ALL:ALL) ALL
hadoop ALL=(ALL:ALL) ALL
第二步:
安装spark,将我们的spark解压
tar zxvf spark-2.2.0-bin-hadoop2.7.tgz
配置环境:
(配置环境的方法和之前的一样,如果不会请进入:https://blog.csdn.net/dxyna/article/details/79677595 )
到这一步环境已经配置成功了,我们只需要刷新就好了,
source ~/.bashrc
测试输入下面代码:
spark-shell
