Spark
热干面的日常学习
我觉得靓仔这个词听着很舒服,虽然我不是广东的
展开
-
Spark系列——缓存(cache/persist)与检查点(checkpoint)以及二者的对比
一、缓存cache和persist是RDD的两个API,cache底层调用的就是persist,区别在于cache不能指定缓存方式,只能缓存在内存中,但是persist可以指定缓存方式,比如:缓存在内存中、内存和磁盘并序列化等。通过RDD的缓存,后续可以对此RDD或者基于此RDD衍生出的其他RDD处理重用这些缓存的数据集。二、checkpoint本质上是将RDD写入磁盘做检查点(通常是checkpint到HDFS上)。在生产环境中,往往在RDD上会执行各种操作,使得DAG图会拉的非常长,为防止中间某个原创 2020-11-03 21:05:59 · 747 阅读 · 0 评论 -
Spark系列——RDD的宽依赖和窄依赖,以及Spark的运行架构,运行流程,框架的特点
一、窄依赖(narrow dependency)窄依赖是指:每一个父RDD的一个partition最多被子RDD的一个partition所使用,例如:map,filter,union等操作会产生窄依赖,相当于父母和独生子女的关系二、宽依赖(shuffle denpendency)宽依赖是指:每一个父RDD的一个partition多个子RDD的一个partition所使用,每一个父RDD的一个partition有可能传输部份数据到子RDD的每一个partition中,子RDD的多个partition依赖原创 2020-11-01 21:08:15 · 1276 阅读 · 0 评论