Spark技术03直播笔记(1)，大数据开发程序员如何有效提升学习效率

最新推荐文章于 2024-08-27 16:42:09 发布

2301_79772893

最新推荐文章于 2024-08-27 16:42:09 发布

阅读量837

点赞数 30

分类专栏：程序员文章标签：大数据 spark 笔记

本文链接：https://blog.csdn.net/2301_79772893/article/details/137714609

版权

程序员专栏收录该内容

184 篇文章 2 订阅

订阅专栏

spark启动与使用

如果想要启动或者使用spark
需要先执行
在这里插入图片描述

zk-startall.sh

在这里插入图片描述

jps

在这里插入图片描述
可以查看到zookeeper的进程
hadoop142、143不需要进行任何操作，已经被141启动了

start-all.sh

在这里插入图片描述

启动集群
结果
在这里插入图片描述
切换路径到spark(根据你自己的路径来）

cd/home/hadoop/spark-3.5.0

在这里插入图片描述

./sbin/start-all.sh

在这里插入图片描述
在jps查看进程，出现worker说明集群已经启动了

出现worker的进程代表集群已经启动，可以通过访问http://hadoop141:8989/来查看界面

在这里插入图片描述
只要能进入这个页面显示出后面三个来就没问题了，启动完成后就可以通过Standalone模式提交任务

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master=spark://hadoop141:7077 ./examples/src/main/python/pi.py

它的7077指的是这个
在这里插入图片描述

确保结束后就是下面这个目录单路径，如果不是证明有问题的需要重修对路径解压，确保是单路径
在这里插入图片描述
敲回车执行后出现一个正在跑的程序

等会就可以看到跑出结果了

还可以通过yarn模式提交
在这里插入图片描述

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode client ./examples/src/main/python/pi.py

还有一个是cluster模式
在这里插入图片描述

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode cluster ./examples/src/main/python/pi.py

cluster的不太好看 succeeded表示成功了，然后点击ID那个点击进去
在这里插入图片描述
会有一个logs(日志),在日志里面就可以查看对应的结果了

它这个是根据你电脑性能来执行的，执行多次结果都是不会重复的

Anaconda安装以及Jupyter安装

具体操作请跳转到PySpark(超详细笔记）
往下找找写的很详细
在这里插入图片描述
配完以后可以在xshell里去启动jupyter notebook

直接访问hadoop141:8888

密码是之前步骤里设置的

这里面就可以执行Python和pyspark

它的路径保存在设置的路径里

可以使用了

进入这个脚本

./bin/spark-shell

在这里插入图片描述
启动以后告诉你可以到4040去访问

后边提交的所有东西都会在这看得到

默认是本地模式执行

也可以别的模式操作

刷新以后再来看会发现有一个编译驱动的一个添加，证明是通过你这个东西来提交的了
在这里插入图片描述
spark session的有效值被起了一个别名叫spark 是spark session的一个对象实例化后的一个对象

试着完成一个案例，通过spark的语法去创建一个0~1000之间的列名是number的一个列表

回到上面来会发现有添加

然后dateframe 它是二维数组尝试案例
在这里插入图片描述

出现stage已经在计算了

刷新可以看到正在运行的job

比如说在这个有向无环图里面第一部是一个整体的一个构建

然后进行了一个统计计算

然后来到这个里面

首先第一步是切割你的数据，最后两个是不同的Map计算
在这里插入图片描述
往下翻可以看到记录的执行结果（18条）
这就是spark里面最简单的记录总数的一个计算

Pycharm

接下来需要安装Pycharm软件
在这里插入图片描述
示范先随便创建个文件夹，然后在里面打开，对于Pycharm来说如果要访问远程集群，必须新建一个解释器

在main里面有一个编辑配置

在+号里面找到这个

如果没有的话在工具部署配置里面

按照这个
在这里插入图片描述

这个要取消掉

配置没有的话要配置一下

映射里本地路径不要动部署路径更改

比如映射到这个里面，需要创建对应的文件

然后他就可以自动的映射了