大数据处理框架:Spark设计与实现
文章平均质量分 84
冬至喵喵
阴暗爬行的一棵小趴菜,缓慢学习中
展开
-
Spark 数据倾斜处理方案
倾斜stage体现为:这里数据倾斜需要和慢节点区分开来,慢节点也会看到某些task的执行时长很长,但是慢节点数据量倾斜度一般来说不满足数据倾斜的条件。而且慢节点的重试任务会执行的比较快;原创 2023-05-07 15:06:46 · 26 阅读 · 0 评论 -
大数据处理框架性能和可靠性保障机制
什么是shuffle机制?运行在不同stage、不同节点上的task间如何进行数据传递。shuffle解决的问题是如何将数据重新组织,使其能够在上游和下游之间进行传递和计算。如果是单纯的数据传输,则只需要对数据进行分区、通过网络传输即可,没有太大难度,但是shuffle机制还需要进行各种类型的计算(如聚合、排序),而且数据量一般会很大。原创 2023-05-28 18:01:34 · 115 阅读 · 0 评论 -
大数据处理框架的核心理论
数据源数据模型:对输入、输出和中间数据进行抽象表示,使得程序能够识别处理。比MR的数据模型<k,v>record,更高层的抽象:RDDRDD只是一个逻辑概念,在内存中并不会为RDD分配存储空间(除非该RDD需要被缓存)。RDD中的数据只会在计算中产生,并且在计算完成后就会消失。RDD可以包含多个分区,不同分区可以由不同的任务(task)在不同节点进行处理。数据操作计算处理结果。原创 2023-05-28 17:55:14 · 104 阅读 · 0 评论 -
第一部分:大数据处理框架的基础知识
大数据的概念:大数据具有数据量大(Volume)、数据类型多样(Variety)、产生与处理速度快(Velocity)、价值高(Value)的4V特性。大数据带来的挑战:传统数据库和数据仓库面临着可扩展性的问题。原创 2023-05-27 13:18:44 · 541 阅读 · 0 评论