pyspark学习记录

最新推荐文章于 2023-01-24 10:48:31 发布

free_fly_

最新推荐文章于 2023-01-24 10:48:31 发布

阅读量245

点赞数

本文链接：https://blog.csdn.net/free_fly_/article/details/83041974

版权

spark整体流程：

Sparkç»ä»¶

ClusterManager:在Standalone模式中即为Master节点（主节点），控制整个集群，监控Worker.在YARN中为ResourceManager
Worker:从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制。
Driver:运行Application的main()函数并创建SparkContect。
Executor:执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executor。
SparkContext:整个应用的上下文，控制应用的生命周期。
RDD：Spark的计算单元，一组RDD可形成执行的有向无环图RDD Graph。
DAG Scheduler:根据作业(Job)构建基于Stage的DAG，并提交Stage给TaskScheduler。
TaskScheduler:将任务(Task)分发给Executor。
SparkEnv:线程级别的上下文，存储运行时的重要组件的引用。

1、Client提交应用。
2、Master找到一个Worker启动Driver
3、Driver向Master或者资源管理器申请资源，之后将应用转化为RDD Graph
4、再由DAGSchedule将RDD Graph转化为Stage的有向无环图提交给TaskSchedule。
5、再由TaskSchedule提交任务给Executor执行。
6、其它组件协同工作，确保整个应用顺利执行。

RDD可执行的操作

map() 对RDD的每一个item都执行同一个操作
flatMap() 对RDD中的item执行同一个操作以后得到一个list，然后以平铺的方式把这些list里所有的结果组成新的list
filter() 筛选出来满足条件的item
distinct() 对RDD中的item去重
sample() 从RDD中的item中采样一部分出来，有放回或者无放回
sortBy() 对RDD中的item进行排序

reduceByKey(): 对所有有着相同key的items执行reduce操作
groupByKey(): 返回类似(key, listOfValues)元组的RDD，后面的value List 是同一个key下面的
sortByKey(): 按照key排序
countByKey(): 按照key去对item个数进行统计
collectAsMap(): 和collect有些类似，但是返回的是k-v的字典

官方教程

http://spark.apache.org/docs/latest/api/python/index.html

参考：

1：https://blog.csdn.net/cymy001/article/details/78483723
2：https://www.cnblogs.com/miqi1992/p/5621268.html

free_fly_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark学习记录

spark整体流程： ClusterManager:在Standalone模式中即为Master节点（主节点），控制整个集群，监控Worker.在YARN中为ResourceManager Worker:从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制。 Driver:运行Application的main()函...
复制链接

扫一扫