大数据——PySpark集成环境搭建

Anaconda安装

版本选择

我们这里选择Anaconda3-5.1.0-Linux-x86_64,建议安装相同版本,如果版本过低,可能无法使用

安装步骤

  • 使用yum安装bzip2,缺少bzip2安装Anaconda会失败
[root@bigdata1 ~]# yum install -y bzip2
  • 安装Anaconda3-5.1.0-Linux-x86_64
[root@bigdata1 ~]# bash Anaconda3-5.1.0-Linux-x86_64
  • 进入之后主要是按照提示操作即可

  • 此处回车,进入安装
    在这里插入图片描述

  • 之后需要接收协议,输入yes,然后在需要回车的地方进行回车安装
    在这里插入图片描述

此处可以指定路径,也可以直接回车,直接回车就是安装在默认的/root/anaconda3路径下。我们这里自己选择安装路径(该路径应提前创建,若该路径不存在,会安装在默认路径)

  • 安装完成后会提示是否自动添加环境变量,yes即可
    在这里插入图片描述

  • 是否安装VSCode,这里是Linux,不需要,输入no,安装结束

在这里插入图片描述

  • 安装Anaconda后会覆盖系统原有的Python,可以通过修改.bashrc使两个版本的Python共存
[root@bigdata1 ~]# vim /root/.bashrc
  • 添加配置
export PATH="/opt/install/anaconda3/bin:$PATH"
alias pyana="/opt/install/anaconda3/bin/python"
alias python="/bin/python"

在这里插入图片描述

  • 使用环境变量生效
[root@bigdata1 ~]# source /root/.bashrc

搭建PySpark

版本选择

我们这里选择spark2.4.4,建议安装相同版本。

安装步骤

  • Spark安装

Spark安装和配置

  • 生成PySpark配置文件
//在当前用户文件夹下运行以下命令生成配置文件
[root@bigdata1 ~]# cd ~
[root@bigdata1 ~]# jupyter notebook --generate-config
  • 修改配置文件,允许从外部访问Jupyter
[root@bigdata1 ~]# vi ./.jupyter/jupyter_notebook_config.py
  • 修改配置
c.NotebookApp.allow_root = True
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
//密码的获取方式如下所示
c.NotebookApp.password = 'sha1:08f12d634c5d:3461d2d1c8b256d9fc1f5d45483550c46c208d6b'
c.NotebookApp.port = 7070

注意:其中c.NotebookApp.password属性的值需要在Anaconda的Python中生成

  • 使用pyana(前面给Anaconda的Python起的别名),进入交互模式
[root@bigdata1 ~]# pyana

在这里插入图片描述

  • 获得密码
>>> from notebook.auth import passwd
>>> password()
  • 根据提示输入密码后会生成与之对应的加密密码,然后将这个生成的字符串赋值给c.NotebookApp.password属性
    在这里插入图片描述
  • 修改环境变量
[root@bigdata1 ~]# vi .bashrc
  • 添加配置
export PYSPARK_PYTHON=/opt/install/anaconda3/bin/python3
export PYSPARK_DRIVER_PYTHON=/opt/install/anaconda3/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
ipython_opts="notebook -pylab inline"
  • 保存退出,使环境变量生效
[root@bigdata1 ~]# source /root/.bashrc
  • 启动PySpark
[root@bigdata1 ~]# pyspark

在这里插入图片描述

  • 在浏览器打开Jupyter Notebook,输入网址
IP地址:7070

在这里插入图片描述

  • 这时输入之前配置的密码进入
    在这里插入图片描述Jupyter Notebook默认文件夹位置就是/root/.jupyter/
    如果想修改默认文件夹位置,进入jupyter_notebook_config.py中配置
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值