什么是SparkDAG

最新推荐文章于 2024-02-01 10:46:28 发布

Tiger-Li

最新推荐文章于 2024-02-01 10:46:28 发布

阅读量487

点赞数

分类专栏： Spark

Spark 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

什么是SparkDAG

原创 2016年06月23日 00:39:12

4049

对于DAG这个概念现在很多上面都有所应用

概念

在spark里每一个操作生成一个RDD，RDD之间连一条边，最后这些RDD和他们之间的边组成一个有向无环图，这个就是DAG。

在spark的应用

Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图，也就是DAG。

有了计算的DAG图，Spark内核下一步的任务就是根据DAG图将计算划分成任务集，也就是Stage，这样可以将任务提交到计算节点进行真正的计算。Spark计算的中间结果默认是保存在内存中的，Spark在划分Stage的时候会充分考虑在分布式计算中可流水线计算（pipeline）的部分来提高计算的效率，而在这个过程中，主要的根据就是RDD的依赖类型。根据不同的transformation操作，RDD的依赖可以分为窄依赖（Narrow Dependency）和宽依赖（Wide Dependency，在代码中为ShuffleDependency）两种类型。窄依赖指的是生成的RDD中每个partition只依赖于父RDD(s) 固定的partition。宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s) 所有partition。窄依赖典型的操作有map, filter, union等，宽依赖典型的操作有groupByKey, sortByKey等。可以看到，宽依赖往往意味着shuffle操作，这也是Spark划分stage的主要边界。对于窄依赖，Spark会将其尽量划分在同一个stage中，因为它们可以进行流水线计算。

至于以上一些shuffer过程建议大家多看看spark官网会比较好点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Tiger-Li CSDN认证博客专家 CSDN认证企业博客

码龄14年

75: 原创

2万+: 周排名

136万+: 总排名

446万+: 访问

: 等级

2万+: 积分

1164: 粉丝

1813: 获赞

214: 评论

7724: 收藏

私信

关注

热门文章

分类专栏

最新评论

32位浮点数加法的VerilogHDL实现
jjaw6262: 博主有测试文件吗，为什么我写的测试结果不对
直方图均衡化
starman584: 找的就是这个图片推导，别的不说，这个才是精华
定点数的表示方法
做而论道_CS: 补码提出来不就是为了方... －－－－－－－－－补码，就是用来唬你的。补码，实际上，就是正常的数字！计算机中，根本就没有补码。（更没有原码反码了）。你失去了正常的概念，已经走火入魔了。你是被人忽悠瘸了，手表，都看不懂了。
定点数的表示方法
cwxia0s: 根源是舍弃进位不假，然后呢，是为了解决什么问题，还不是加法当加法器用，补码提出来不就是为了方便的处理负数吗，不管取反加一也好，加一个周期也好，不管怎么看，总要实现出来，上升到思维的高度，小心走火入魔
定点数的表示方法
cwxia0s: 引用你自己博客写的： ``` 为什么要使用补码呢？补码，究竟是什么东西呢？其实，补码，就是一个【代替负数进行运算的正数】。有了补码，负数，就成了正数，减法运算，也就转成了加法运算。因此，加、减法，就都可以统一用加法运算。这么一来，计算机的硬件，就可以得到简化。 ``` 补码的意义再说，你看看你说的什么东西： ``` 舍弃进位，加法可以当减法，这是小朋友都能看懂的知识。计算机专家，为什么要编造符号位原码反码 ...，这些虚假的故事呢？因为，这些专家，小学都没有毕业！ ``` ``` 是先有的算法（即舍弃进位），才设计出来的电路。不是先有了电路，再引入补码的算法。 ``` 补码的意义是在实际中，简化电路设计，引入这种计算方式，这就是在电路设计背景下提出的，有错吗你的理解能力，素质，都堪忧，别回复我了，看你的言论就晦气

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。