jupyter中安装scala和spark内核详细教程

jupyter中安装scala和spark内核

jupyter中安装scala和spark内核


在jupyter中安装scala和spark的内核,主要是通过jupyter来编写scala和spark的代码,安装成功后就可以编写一些scala、SparkSQL、Spark的代码。

在这里插入图片描述

一、前期准备

提前下载:

提前安装好spark,并且启动

二、安装

(一)Anaconda

使用Anaconda中自带的jupyter,而且Anaconda中集成了众多包

1、文件上传到Linux系统上
方法一:

将提前下载好的Anacoda,通过rz命令上传到centos中,我是使用的是SecureCRT来连接centos

我一般将文件上传到/opt/software

[andy@hadoop1 ~]$ cd /opt/software/
[andy@hadoop1 software]$ rz
rz waiting to receive.
Starting zmodem transfer.  Press Ctrl+C to cancel.

选择文件就可以上传

在这里插入图片描述

方法二:使用wget

使用wget在centos中下载Anaconda

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh
2、安装Anaconda

执行安装命令

bash Anaconda3-5.3.1-Linux-x86_64.sh

可以一直按Enter,一直到需要输入yes或者no的时候,输入yes

在这里插入图片描述

选择Anaconda的安装位置,默认是在执行安装命令的用户家目录下,可以更换位置或者不更换。

在这里插入图片描述

然后是Anaconda的初始化,一定要输入yes

就此安装成功

3、激活环境

命令:

source activate base
[andy@hadoop1 software]$ source activate base
(base) [andy@hadoop1 software]$ 

激活成功后,会出现(base)

注意:这点环境一定要激活,后面的安装需要使用到

4、jupyter

如果直接执行jupyter notebook,只能在本地运行,但是想过将jupyter在windows上运行,需指定ip地址

jupyter notebook --ip=0.0.0.0

在这里插入图片描述

在这里插入图片描述

(二)Scala内核

安装scala内核,主要是为了练习scala时使用,如果用spark的scala来练习scala,内核需要消耗大量的资源,因此安装scala内核

1、文件上传到Linux系统上
方法一:

将下载好的jupyter-scala_2.11.6-0.2.0-SNAPSHOT.tar.xz,通过rz命令上传到centos

一般将文件上传到/opt/software

cd /opt/software
rz
方法二:使用wget
wget https://oss.sonatype.org/content/repositories/snapshots/com/github/alexarchambault/jupyter/jupyter-scala-cli_2.11.6/0.2.0-SNAPSHOT/jupyter-scala_2.11.6-0.2.0-SNAPSHOT.tar.xz
2、将文件进行解压

将文件解压到/opt/module/

 tar -zxvf jupyter-scala_2.11.6-0.2.0-SNAPSHOT.tar.xz -C /opt/module/

在这里插入图片描述

3、安裝scala内核

执行命令:

进入到解压路径中

cd /opt/module/
jupyter-scala_2.11.6-0.2.0-SNAPSHOT/bin/jupyter-scala

运行情况:

(base) [andy@hadoop1 ~]$ cd /opt/module/
(base) [andy@hadoop1 module]$ jupyter-scala_2.11.6-0.2.0-SNAPSHOT/bin/jupyter-scala

在这里插入图片描述

4、验证内核

查看jupyter中的内核:

jupyter kernelspec list

在这里插入图片描述

(三)spark内核

安装spark和sparkSQL

需要提前安装toree

pip install toree
1、安装spark内核
jupyter toree install --spark_opts='--master=spark://hadoop1:7077' --user --kernel_name=Spark3.0.2 --spark_home=/opt/module/spark-yarn
  • spark_opts:是指spark使用的方法,这点是standalone模型(独立部署),这点可以看spark教程

  • kernel_name:是spark的版本

    • 可以通过spark-shell来查看

      在这里插入图片描述

  • spark_home:spark的安装位置

    需要修改成自己的

2、安装sparkSQL内核
jupyter toree install --spark_opts='--master=spark://hadoop1:7077' --user --kernel_name=Spark3.0.2 --spark_home=/opt/module/spark-yarn --interpreters=SQL
3、验证内核

查看jupyter中的内核:

jupyter kernelspec list

在这里插入图片描述

补充知识:
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值