自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小舰的博客

数据库大数据大厂经验分享

  • 博客(9)
  • 收藏
  • 关注

原创 Spark数据倾斜方案实战(三)

导读:上两期,我们分别讲了通过提高并行度和自定义分区策略来解决数据倾斜的方法,同时我们也讲到了他们的共同缺点:针对于不同key倾斜到同一个节点到场景。那如果是同样的key太大怎么办呢?如何将同一个key分配到不同的节点呢?答案就是通过对key增加前后缀的方式,这样就可以重新为这些数据划分分区了。这种方式解决起来比较麻烦,我们可以一步一步来。系列完成会把代码开源~本文经授权转自公众号DLab数据实验室作者 |小舰出品 | DLab数据实验室(ID:rucdlab)...

2020-11-18 14:33:17 176

原创 Spark数据倾斜解决方案实战(二)

导读:上一期讲了[Spark数据倾斜解决方案实战(一)],这个方法有个很好的优点就是,你可以不改代码,直接通过参数spark.default.parallelism就可以调整。本期介绍第二种,自定义partitioner的方法,我们实现spark提供的分区接口,自定义分区。这样有个什么好处呢,我们想让哪个数据在哪个分区就能在那个分区,这个方法可真是太香了,我们来看看吧~本系列文章,模拟数据倾斜场景,探索数据倾斜解决方案。系列完成会把代码开源~本文经授权转自公众号DLab数据实验室...

2020-11-15 10:28:07 175

原创 Spark数据倾斜解决方案实战(一)

导读:数据倾斜在大数据任务中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同或取模相同的key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的。本系列文章,模拟数据倾斜场景,探索数据倾斜解决方案。本文经授权转自公众号DLab数据实验室作者 |小舰出品 | D...

2020-11-15 10:26:40 279

原创 大数据计算生态之数据计算(二)

导读:大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线,梳理整个大数据计算生态组件及其功能。在[大数据计算生态之数据计算(一)]中介绍了批处理和流处理中的各个存储组件的分类及功能。本文将详细介绍计算层的另外两种场景的计算引擎--即席查询和图查询。本文经授权转自公众号DLab数据实验室作者 |小舰...

2020-11-15 10:21:37 362

原创 大数据计算生态之数据计算(一)

导读:大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线,梳理整个大数据计算生态组件及其功能。在[大数据计算生态之数据存储]中介绍了存储层中的各个存储组件的分类及功能。有了数据之后,各个应用就可以利用这些数据进行不同维度或角度的分析,从而形成不同的数据价值产品。支撑这一过程最重要的就是计算引擎。计算层是整个...

2020-11-15 10:20:01 611

原创 大数据计算生态之数据存储

导读:大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线,梳理整个大数据计算生态组件及其功能。大数据计算生态的系列文章,拟包含的系列文章有:《大数据计算生态之数据存储》《大数据计算生态之数据计算》《大数据计算生态之数据交互》《大数据计算生态之计算调度》以及《大数据计算生态之数据工具》,该系列文章将从底层存储到顶层交互的...

2020-11-15 10:08:04 343

原创 一文纵览大数据计算生态

欢迎关注wx公众号:DLab数据实验室 关注更多知识干货~​​​​概述大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用的、定制的,批量的、实时的,关系的、图的、非结构的,数据计算的、机器学习的,我们都可以找到各种对应的计算引擎。本文拟以大数据平台从底到高的层次为主线,梳理整个大数据计算生态。下面大数据计算生态的图最上层为应用层,也就是实际与开发人员交互的层,例如分析人员通过在Hive中写SQL就可以调用到中间层的MapReduce引擎来进行分析处理。Spark的Graph.

2020-10-22 18:42:07 408

原创 大数据查询优化--Spark3.0新特性

前言Apache Spark在6月份分布了3.0.0版本,增加了许多性能优化方面的新特性。作为大数据分析的重要引擎,在SQL查询优化方面的新特性值得期待和使用。Spark在SQL查询方面的性能优化主要分为四个方向七个方面:开发交互方向新的Explain格式 所有join支持hints动态优化自适应查询执行 动态分区裁剪Catalyst提升增强嵌套列的裁剪和下推 增强聚合的代码生成基础设施更新支持新的Scala和Java版本新特性介绍这7个方面最值得关注的在.

2020-10-22 18:34:11 467

原创 实时数据流计算引擎Flink和Spark剖析

在过去几年,业界的主流流计算引擎大多采用Spark Streaming,随着近两年Flink的快速发展,Flink的使用也越来越广泛。与此同时,Spark针对Spark Streaming的不足,也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点,为流处理场景的选型提供参考。(DLab数据实验室 w.x.公众号出品)一. Spark StreamingSpark Streaming是Spark最早推出的流处理组件,它基于流式批处理引擎,基本原理是把输入数据以某一时间

2020-10-22 18:16:17 802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除