Spark系列——从 cartesian 带你看点不一样的 Shuffle-CSDN博客

本文链接：https://blog.csdn.net/q322625/article/details/103791326

前言

这只是一个人随意的一些分享，
你大概可以放宽心的当休闲的东西来看，
看完你大概也许会对Spark会有一些不一样的想法。

正文----一路飙，没有标题，因为是随心写的

cartesian算子 - 笛卡尔积
cartesian的工作机制大概如下图（该图来自https://www.jianshu.com/p/c62d5d27f4ed）
多的应该就不需要说了吧？

cartesian.png

那么问题来了
cartesian 会不会发生 shuffle。
我们写如下代码进行测试验证：

  val conf = new SparkConf()
    .setMaster("local[1]")
    .setAppName("test")
  val sc = new SparkContext(conf)
  val rdd1 = sc.parallelize(Seq("hello", "world", "hello", "you"), 2)
  val rdd2 = sc.parallelize(Seq("hello", "me", "hello", "me"), 2)

  rdd1.cartesian(rdd2).foreach(println)

  while (true) {}

可以发现，最后是只有一个Stage，也就是说没有发生Shuffle。

WTF？按照上面的原理图难道不该是ShuffleDependency 吗？
不知道小伙伴你是怎么看待这个事情的？
赶紧跑去看看源码
看不懂的小伙伴就别看了~~
这里本人没打算详细说...
主要源码这东西，真的不是那么容易讲明白
```
override def getDependencies: Seq[Dependency[_]] = List(
  new NarrowDependency(rdd1) {
    def getParents(id: Int): Seq[Int] = List(id / numPartitionsInRdd2)
  },
  new NarrowDependency(rdd2) {
    def getParents(id: Int): Seq[Int] = List(id % numPartitionsInRdd2)
  }
)
```
看到源码我们就大概了然了，
竟然是两个 NarrowDependency，
我们初略解读下这个代码，
当我们分区0去读取数据的时候，
会读取到rdd1的 0 / 2 = 0 号分区
会读取到rdd2的 0 % 2 = 0 号分区

当我们分区1去读取数据的时候，
会读取到rdd1的 1 / 2 = 0 号分区
会读取到rdd2的 1 % 2 = 1 号分区

当我们分区2去读取数据的时候，
会读取到rdd1的 2 / 2 = 1 号分区
会读取到rdd2的 2 % 2 = 0 号分区

当我们分区3去读取数据的时候，
会读取到rdd1的 3 / 2 = 1 号分区
会读取到rdd2的 3 % 2 = 1 号分区

并且是默认的Hash分区器，
这样就保证了能组合的数据肯定会组合到一起
上面这些其实了解一下就好了，
但是有一点我们却可以深入的想一下...
为什么要这么做？
当然显而易见的道理：减少了一次shuffle。
那么我们再来看个算子：intersection（取交集）
是不是也可以做类似的事情，
也可以不需要shuffle就能达成正确的结果。
仔细想一想....还真是可以....
但是但是....
Spark的 intersection 是会有shuffle的...
WTF?为啥？Spark没考虑到吗？
其实我们再深入想一下,
减少shuffle是为了减少什么？
当然是为了避免磁盘IO。
笛卡尔积那是需要全量数据做连接的，
但是求交集不是，
只要特定的数据就可以，
所以完全可以通过hash将数据正确分组在求交集，
虽然会产生shuffle，
但是数据量却可以减少非常多，
所以权衡一下，
大多数情况下还是使用shuffle 会更快。
本文到这里就结束了，没有说什么很实际的东西，
其实主要还是觉的Spark对于很多算子的设计还是很用心的，
真的帮助我们考虑了很多东西，
不过同样的，帮我们做了这么多，
我们思考的东西也少了，
哎~~~总觉的.....
不管怎么样！随时保持学习的心态，
平时很多常用的Api我们真的有去深究过吗？
多想多思才能学到更多的东西，
大家一起加油！！！！