前置条件
- spark安装完毕
- Ancona安装完毕
为了在jupyter notebook上编写scala与spark需要安装Jupyter-Spark与Jupyter-Scala两个jupyter核心(kernel)
本人安装顺序为Jupyter-Spark,然后Jupyter-Scala,文档编写顺序为本人安装顺序。
开始
此处使用Apache toree给notebook安装scala kernel
第一步,安装toree
下载toree,
pip install toree
第二步,安装jupyter-scala,顺便启动spark
jupyter toree install --spark_opts='--master=spark://localhost:7077' --user --kernel_name=Spark2.3.2 --spark_home=/home/fonttian/spark-2.3.2-bin-hadoop2.7
此处–master spark地址 --spark_home spark 下载目录
–kernel_name可以通过spark-shell 查看
第三步,检测jupyter核心,检测新建项目
第四步:创建scala项目并运行
在jupyter可以直接以脚本形式运行scala语句
也可以定义object,然后利用main函数运行。
注意的地方
假如使用jupyter-spark启动scala即使没有使用spark,jupyter也会默认启动spark,如果仅仅是想要练习scala的话建议使用jupyter-scala核心新建项目,下面是jupyter-scala的安装方法
安装scala核心
如果你对scala不熟悉的话,或许你还需要在jupyter上安装scala核心(一般使用idea)
下载jupyter-scala-cli
请到https://oss.sonatype.org/content/repositories/snapshots/com/github/alexarchambault/jupyter/下载jupyter-scala-cli文件
此处博主使用的是最新的2.11.6版本
添加核心
首先解压文件,然后按照图中运行制定文件进行安装
检测核心
jupyter kernelspec list
检测新添加的核心
创建Scala项目
如果想要创建object等,并运行,与上面描述方法一致,运行objectName.main(Array())即可