Anaconda安装
版本选择
我们这里选择Anaconda3-5.1.0-Linux-x86_64,建议安装相同版本,如果版本过低,可能无法使用
安装步骤
- 使用yum安装bzip2,缺少bzip2安装Anaconda会失败
[root@bigdata1 ~]# yum install -y bzip2
- 安装Anaconda3-5.1.0-Linux-x86_64
[root@bigdata1 ~]# bash Anaconda3-5.1.0-Linux-x86_64
-
进入之后主要是按照提示操作即可
-
此处回车,进入安装
-
之后需要接收协议,输入yes,然后在需要回车的地方进行回车安装
此处可以指定路径,也可以直接回车,直接回车就是安装在默认的/root/anaconda3路径下。我们这里自己选择安装路径(该路径应提前创建,若该路径不存在,会安装在默认路径)
-
安装完成后会提示是否自动添加环境变量,yes即可
-
是否安装VSCode,这里是Linux,不需要,输入no,安装结束
- 安装Anaconda后会覆盖系统原有的Python,可以通过修改.bashrc使两个版本的Python共存
[root@bigdata1 ~]# vim /root/.bashrc
- 添加配置
export PATH="/opt/install/anaconda3/bin:$PATH"
alias pyana="/opt/install/anaconda3/bin/python"
alias python="/bin/python"
- 使用环境变量生效
[root@bigdata1 ~]# source /root/.bashrc
搭建PySpark
版本选择
我们这里选择spark2.4.4,建议安装相同版本。
安装步骤
- Spark安装
- 生成PySpark配置文件
//在当前用户文件夹下运行以下命令生成配置文件
[root@bigdata1 ~]# cd ~
[root@bigdata1 ~]# jupyter notebook --generate-config
- 修改配置文件,允许从外部访问Jupyter
[root@bigdata1 ~]# vi ./.jupyter/jupyter_notebook_config.py
- 修改配置
c.NotebookApp.allow_root = True
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
//密码的获取方式如下所示
c.NotebookApp.password = 'sha1:08f12d634c5d:3461d2d1c8b256d9fc1f5d45483550c46c208d6b'
c.NotebookApp.port = 7070
注意:其中c.NotebookApp.password属性的值需要在Anaconda的Python中生成
- 使用pyana(前面给Anaconda的Python起的别名),进入交互模式
[root@bigdata1 ~]# pyana
- 获得密码
>>> from notebook.auth import passwd
>>> password()
- 根据提示输入密码后会生成与之对应的加密密码,然后将这个生成的字符串赋值给c.NotebookApp.password属性
- 修改环境变量
[root@bigdata1 ~]# vi .bashrc
- 添加配置
export PYSPARK_PYTHON=/opt/install/anaconda3/bin/python3
export PYSPARK_DRIVER_PYTHON=/opt/install/anaconda3/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
ipython_opts="notebook -pylab inline"
- 保存退出,使环境变量生效
[root@bigdata1 ~]# source /root/.bashrc
- 启动PySpark
[root@bigdata1 ~]# pyspark
- 在浏览器打开Jupyter Notebook,输入网址
IP地址:7070
- 这时输入之前配置的密码进入
Jupyter Notebook默认文件夹位置就是/root/.jupyter/
如果想修改默认文件夹位置,进入jupyter_notebook_config.py中配置