spark启动与使用
如果想要启动或者使用spark
需要先执行
zk-startall.sh
jps
可以查看到zookeeper的进程
hadoop142、143不需要进行任何操作,已经被141启动了
start-all.sh
启动集群
结果
切换路径到spark(根据你自己的路径来)
cd/home/hadoop/spark-3.5.0
./sbin/start-all.sh
在jps查看进程,出现worker说明集群已经启动了
出现worker的进程代表集群已经启动,可以通过访问http://hadoop141:8989/来查看界面
只要能进入这个页面显示出后面三个来就没问题了,启动完成后就可以通过Standalone模式提交任务
[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master=spark://hadoop141:7077 ./examples/src/main/python/pi.py
它的7077指的是这个
确保结束后就是下面这个目录 单路径,如果不是证明有问题的 需要重修对路径解压,确保是单路径
敲回车执行后 出现一个正在跑的程序
等会 就可以看到跑出结果了
还可以通过yarn模式提交
[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode client ./examples/src/main/python/pi.py
还有一个是cluster模式
[root@hadoop141 spark-3.5.0]# ./bin/spark-submit --master yarn --deploy-mode cluster ./examples/src/main/python/pi.py
cluster的不太好看 succeeded表示成功了,然后点击ID那个点击进去
会有一个logs(日志),在日志里面就可以查看对应的结果了
它这个是根据你电脑性能来执行的,执行多次结果都是不会重复的
Anaconda安装以及Jupyter安装
具体操作请跳转到PySpark(超详细笔记)
往下找找 写的很详细
配完以后可以在xshell里去启动jupyter notebook
直接访问hadoop141:8888
密码是之前步骤里设置的
这里面就可以执行Python和pyspark
它的路径保存在设置的路径里
可以使用了
进入这个脚本
./bin/spark-shell
启动以后告诉你可以到4040去访问
后边提交的所有东西都会在这看得到
默认是本地模式执行
也可以别的模式操作
刷新以后再来看会发现有一个编译驱动的一个添加,证明是通过你这个东西来提交的了
spark session的有效值被起了一个别名叫spark 是spark session的一个对象 实例化后的一个对象
试着完成一个案例,通过spark的语法去创建一个0~1000之间的 列名是number的一个列表
回到上面来会发现有添加
然后dateframe 它是二维数组 尝试案例
出现stage已经在计算了
刷新可以看到正在运行的job
比如说在这个有向无环图里面 第一部是一个整体的一个构建
然后进行了一个统计计算
然后来到这个里面
首先第一步是切割你的数据,最后两个是不同的Map计算
往下翻可以看到记录的执行结果(18条)
这就是spark里面最简单的记录总数的一个计算
Pycharm
接下来需要安装Pycharm软件
示范 先随便创建个文件夹,然后在里面打开,对于Pycharm来说如果要访问远程集群,必须新建一个解释器
在main里面有一个编辑配置
在+号里面找到这个
如果没有的话在工具部署配置里面
按照这个
这个要取消掉
配置没有的话要配置一下
映射里本地路径不要动 部署路径更改
比如映射到这个里面,需要创建对应的文件
然后他就可以自动的映射了
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-DJgDRXDq-1712989040509)]
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!