-
下载Anaconda3-5.3.0-Linux-x86_64.sh
-
安装Anaconda
-
编辑~/.bashrc加入模块路径
-
使~/.bashrc生效
-
查看Python版本
-
在IPython Notebook使用Spark
创建ipynotebook工作目录
-
在IPython Nodebook界面运行pyspark
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005171157482.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NhbmR5bHg=,size_16,color_FFFFFF,t_70#pic_center)
-
在IPython Notebook运行程序代码
-
读取本地文件程序代码
-
读取HDFS文件程序代码
需要先启动Hadoop
start-all.sh
-
输入读取HDFS文件程序代码
保存Nodebook -
使用IPython Notebook在Hadoop YARN-client模式运行
(作业)
使用IPython Notebook在Spark Stand Alone模式运行
启动Spark Stand Alone
-
启动IPython Notebook运行在Spark Stand Alone模式
-
全部重新执行Notebook程序代码