Spark
程序姜
这个作者很懒,什么都没留下…
展开
-
Stage的划分
介绍Stage是Spark独有的概念,是对RDD进行范围描述的东西。原理Stage划分是从最终结果RDD从后往前,通过递归来划分stage,循环到最后会把所有rdd划分为一个Stage(可以结合Stage的源码来理解这句话)为什么要根据宽窄依赖划分Stage?在此之前一定要先理解宽依赖和窄依赖的概念:宽依赖和窄依赖每个宽依赖的处理均会是一个stage的划分点。可以这么简单的理解:宽...原创 2020-04-17 08:53:03 · 2690 阅读 · 0 评论 -
RDD的依赖关系(宽依赖和窄依赖)
窄依赖父RDD的一个分区被一个子RDD的一个分区使用,分区是一对一或多对一的对应关系。如,map、filter等操作。宽依赖父RDD的分区被多个子RDD的分区使用,分区是一对多的对应关系,那么就会有如何分配的问题(shuffle过程)。如,groupByKey等操作。宽依赖、窄依赖是理解划分Stage的重要概念。Stage的划分:...原创 2020-04-17 08:44:18 · 878 阅读 · 0 评论 -
SparkSQL与Hive的区别,为什么要用SparkSQL?
Hive将HiveSQL转换为MapReduce提交到集群上运行,简化了编写MapReduce的复杂性。由于MapReduce计算模型(基于磁盘)执行效率比较慢,于是Spark(基于内存)推出了SparkSQLSparkSQL将SparkSQL转换为RDD,然后提交到集群上运行,执行效率比MapReuce快。????如果数据超过10PB,建议使用Hive,Hive可以处理100PB级别的数据,...翻译 2020-04-17 08:20:12 · 3661 阅读 · 0 评论