Spark运行时程序调度

最新推荐文章于 2022-05-08 12:04:04 发布

IT影风

最新推荐文章于 2022-05-08 12:04:04 发布

阅读量231

点赞数

文章标签： Spark Spark运行时 Spark RDD Spark transformations Spark Action

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/afafawfaf/article/details/81038386

版权

一，Spark运行时程序调度

1，Spark应用程序会在一个物理节点上有驱动程序（Driver）

2，驱动程序（Driver）会分发每个tasks到Worker节点

3，Worker节点就会返回result到Dirver节点

二，Spark程序运行流程

1，分布式文件系统（File system）--加载数据集（RDD）

2，transformations延迟执行--针对RDD的操作

3，Action触发执行

三，Spark为何要做缓存

1，lines = sc.textFile(“hdfs://...”)
   加载进来成为RDD
2，errors = lines.filter(_.startsWith(“ERROR”))
   Transformation转换
3，errors.persist()
   缓存RDD
4，Mysql_errors = errors.filter(_.contain(“MySQL”)).count
   Action执行
5，http_errors = errors.filter(_.contain(“Http”)).count
  Action执行

由上面的代码可以看出

1和2是Transformation操作，

4是Action操作就会触发Job,

如果不做3的缓存那一步，5就会找不到errors这个RDD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄8年

37
原创

32
点赞

242
收藏

22
粉丝

关注

私信

热门文章

最新评论

Hive分区表的分区操作
埃菲尔没有塔尖: 学习hive第二天,看的分区表看的我是一脸懵逼啊
Java实现向Alluxio集群写数据的代码样例
zhangketuan 回复 zhangketuan: 把alluxio-core-client的版本有1.8.0改为1.8.1就ok了
Java实现向Alluxio集群写数据的代码样例
zhangketuan 回复 qq_43447126: Could not initialize class alluxio.network.netty.NettyClient 报错啊这个问题你是如何解决的？
基于Centos7.2的CDH5.7.2的部署
knigt: 您好，我想请问一下在您的3.4.1第5张截图我这边显示是的No parcels found from the configured repositories. Try adding a Custom Repository under More Options. Otherwise, you may only proceed with Use Packages. 您遇到过吗
Java实现向Alluxio集群写数据的代码样例
qq_43447126: Could not initialize class alluxio.network.netty.NettyClient 报错啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。