Spark技术03直播笔记(1),大数据开发程序员如何有效提升学习效率

spark启动与使用

如果想要启动或者使用spark
需要先执行
在这里插入图片描述

zk-startall.sh

在这里插入图片描述

jps

在这里插入图片描述
可以查看到zookeeper的进程
hadoop142、143不需要进行任何操作,已经被141启动了

start-all.sh

在这里插入图片描述

启动集群
结果
在这里插入图片描述
切换路径到spark(根据你自己的路径来)

cd/home/hadoop/spark-3.5.0

在这里插入图片描述

./sbin/start-all.sh

在这里插入图片描述
在jps查看进程,出现worker说明集群已经启动了
在这里插入图片描述

出现worker的进程代表集群已经启动,可以通过访问http://hadoop141:8989/来查看界面

在这里插入图片描述
只要能进入这个页面显示出后面三个来就没问题了,启动完成后就可以通过Standalone模式提交任务
在这里插入图片描述

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master=spark://hadoop141:7077 ./examples/src/main/python/pi.py

它的7077指的是这个
在这里插入图片描述

确保结束后就是下面这个目录 单路径,如果不是证明有问题的 需要重修对路径解压,确保是单路径
在这里插入图片描述
敲回车执行后 出现一个正在跑的程序
在这里插入图片描述
等会 就可以看到跑出结果了
在这里插入图片描述

还可以通过yarn模式提交
在这里插入图片描述

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode client ./examples/src/main/python/pi.py

还有一个是cluster模式
在这里插入图片描述

[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode cluster ./examples/src/main/python/pi.py

cluster的不太好看 succeeded表示成功了,然后点击ID那个点击进去
在这里插入图片描述
会有一个logs(日志),在日志里面就可以查看对应的结果了
在这里插入图片描述
在这里插入图片描述
它这个是根据你电脑性能来执行的,执行多次结果都是不会重复的

Anaconda安装以及Jupyter安装

具体操作请跳转到PySpark(超详细笔记)
往下找找 写的很详细
在这里插入图片描述
配完以后可以在xshell里去启动jupyter notebook
在这里插入图片描述
直接访问hadoop141:8888
在这里插入图片描述
密码是之前步骤里设置的
在这里插入图片描述
在这里插入图片描述
这里面就可以执行Python和pyspark
在这里插入图片描述
它的路径保存在设置的路径里
在这里插入图片描述
可以使用了
在这里插入图片描述
在这里插入图片描述
进入这个脚本

./bin/spark-shell

在这里插入图片描述
启动以后告诉你可以到4040去访问
在这里插入图片描述
后边提交的所有东西都会在这看得到
在这里插入图片描述
默认是本地模式执行
在这里插入图片描述
也可以别的模式操作
在这里插入图片描述
在这里插入图片描述
刷新以后再来看会发现有一个编译驱动的一个添加,证明是通过你这个东西来提交的了
在这里插入图片描述
spark session的有效值被起了一个别名叫spark 是spark session的一个对象 实例化后的一个对象
在这里插入图片描述
试着完成一个案例,通过spark的语法去创建一个0~1000之间的 列名是number的一个列表
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回到上面来会发现有添加

然后dateframe 它是二维数组 尝试案例
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
出现stage已经在计算了
在这里插入图片描述
刷新可以看到正在运行的job
在这里插入图片描述
在这里插入图片描述
比如说在这个有向无环图里面 第一部是一个整体的一个构建
在这里插入图片描述
然后进行了一个统计计算
在这里插入图片描述
然后来到这个里面
在这里插入图片描述
首先第一步是切割你的数据,最后两个是不同的Map计算
在这里插入图片描述
往下翻可以看到记录的执行结果(18条)
这就是spark里面最简单的记录总数的一个计算
在这里插入图片描述

Pycharm

接下来需要安装Pycharm软件
在这里插入图片描述
示范 先随便创建个文件夹,然后在里面打开,对于Pycharm来说如果要访问远程集群,必须新建一个解释器
在这里插入图片描述
在main里面有一个编辑配置
在这里插入图片描述
在+号里面找到这个
在这里插入图片描述
在这里插入图片描述
如果没有的话在工具部署配置里面
在这里插入图片描述
按照这个
在这里插入图片描述
在这里插入图片描述
这个要取消掉
在这里插入图片描述
配置没有的话要配置一下
在这里插入图片描述
在这里插入图片描述
映射里本地路径不要动 部署路径更改
在这里插入图片描述
比如映射到这个里面,需要创建对应的文件
在这里插入图片描述
然后他就可以自动的映射了

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-DJgDRXDq-1712989040509)]

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 30
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值