![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 80
spark
曲终人散121
努力。
展开
-
Spark--3 DAGScheduler
两大能力: 1 维护waiting jobs和active jobs,维护waiting stages、active stages和failed stages,以及与jobs的映射关系; 2 .面向stage的切分原创 2021-05-11 04:55:17 · 255 阅读 · 0 评论 -
spark ---1 Shuffle
1 Hash Shuffle V1 相对于传统的 MapReduce,Spark 假定大多数情况下 Shuffle 的数据不需要排序,例如 Word Count,强制排序反而会降低性能。因此不在 Shuffle Read 时做 Merge Sort,如果需要合并的操作的话,则会使用聚合(agggregator),即用了一个 HashMap (实际上是一个 AppendOnlyMap)来将数据进行合并。 在 Map Task 过程按照 Hash 的方式重组 Partition 的数据,不进行排序。每个 Ma.原创 2021-05-11 04:34:22 · 229 阅读 · 0 评论 -
Spark -- 0 简介
1 组要功能 2 运行环境 standalone cluster mode, on EC2(Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,能在云中提供安全且可调整大小的计算能力), on Hadoop YARN, on Mesos, or on Kubernetes. 数据源 HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive ...原创 2021-05-11 03:54:29 · 208 阅读 · 1 评论