spark
这里以wordcount程序为例,演示spark的基本流程和原理
基本概念
- RDD:弹性分布式数据集。数据存放在各个节点上。spark对RDD进行操作。
- 算子:各种操作/行动。spark中的函数
- 创建
- 变换
- 缓存
- 行动
spark架构分析
- application:用户编写的spakr程序,包含驱动程序和要运行的代码
- driver驱动程序:main创建sparkcontent,程序结束后负责关闭sparkcontent。
- sparkcontent:与clustermanager通信
- clustermaster:集群资源管理器。
- 是这个spark集群的核心。不负责具体的执行,只负责管理整个集群的计算机资源。(内存,cpu等)。每个计算节点都要向clustermaster注册自己的资源情况。
- yarn,mesos等。
- master节点&#