程小舰-CSDN博客

原创 Spark数据倾斜方案实战(三)

导读：上两期，我们分别讲了通过提高并行度和自定义分区策略来解决数据倾斜的方法，同时我们也讲到了他们的共同缺点：针对于不同key倾斜到同一个节点到场景。那如果是同样的key太大怎么办呢？如何将同一个key分配到不同的节点呢？答案就是通过对key增加前后缀的方式，这样就可以重新为这些数据划分分区了。这种方式解决起来比较麻烦，我们可以一步一步来。系列完成会把代码开源～本文经授权转自公众号DLab数据实验室作者 |小舰出品 | DLab数据实验室（ID：rucdlab）...

2020-11-18 14:33:17 247

原创 Spark数据倾斜解决方案实战（二）

导读：上一期讲了[Spark数据倾斜解决方案实战（一）]，这个方法有个很好的优点就是，你可以不改代码，直接通过参数spark.default.parallelism就可以调整。本期介绍第二种，自定义partitioner的方法，我们实现spark提供的分区接口，自定义分区。这样有个什么好处呢，我们想让哪个数据在哪个分区就能在那个分区，这个方法可真是太香了，我们来看看吧~本系列文章，模拟数据倾斜场景，探索数据倾斜解决方案。系列完成会把代码开源～本文经授权转自公众号DLab数据实验室...

2020-11-15 10:28:07 236

原创 Spark数据倾斜解决方案实战（一）

导读：数据倾斜在大数据任务中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同或取模相同的key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的。本系列文章，模拟数据倾斜场景，探索数据倾斜解决方案。本文经授权转自公众号DLab数据实验室作者 |小舰出品 | D...

2020-11-15 10:26:40 400

原创大数据计算生态之数据计算（二）

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线，梳理整个大数据计算生态组件及其功能。在[大数据计算生态之数据计算（一）]中介绍了批处理和流处理中的各个存储组件的分类及功能。本文将详细介绍计算层的另外两种场景的计算引擎--即席查询和图查询。本文经授权转自公众号DLab数据实验室作者 |小舰...

2020-11-15 10:21:37 424

原创大数据计算生态之数据计算（一）

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线，梳理整个大数据计算生态组件及其功能。在[大数据计算生态之数据存储]中介绍了存储层中的各个存储组件的分类及功能。有了数据之后，各个应用就可以利用这些数据进行不同维度或角度的分析，从而形成不同的数据价值产品。支撑这一过程最重要的就是计算引擎。计算层是整个...

2020-11-15 10:20:01 703

原创大数据计算生态之数据存储

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线，梳理整个大数据计算生态组件及其功能。大数据计算生态的系列文章，拟包含的系列文章有：《大数据计算生态之数据存储》《大数据计算生态之数据计算》《大数据计算生态之数据交互》《大数据计算生态之计算调度》以及《大数据计算生态之数据工具》，该系列文章将从底层存储到顶层交互的...

2020-11-15 10:08:04 395