Flink专栏
文章平均质量分 93
林夕_Yume
这个作者很懒,什么都没留下…
展开
-
DataLake — 批流一体化的追风者(2) -- Delta Lake核心原理解析
一、Delta Lake1.Delta Lake基础概述 接上文,我们全面地讲解了Data Lake相关的概念、对比区别以及实际发展历程等。那么这篇首章开篇我们来讲历史最为悠久的Delta Lake。它的定位是流批一体的存储中间层,支持 update/delete/merge。由于出自Databricks,spark的所有数据写入方式,包括基于dataframe的批、流,以及 SQL的Insert、Insert Overwrite等都是支持的(开源版本SQL写暂不支持)。与Iceber...原创 2021-11-29 20:28:04 · 1921 阅读 · 1 评论 -
DataLake — 批流一体化的追风者(1)
技术分享知识经验解决方案架构本次将之前讲解的DataLake相关的课程资料整理后发出,供大家参考学习,后续有问题可知音楼交流。一、DataLake 概述 数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库+Hadoop集群+..原创 2021-11-29 20:19:59 · 1901 阅读 · 0 评论 -
Flink时间窗口实战解析(一)
一、APM服务背景 二、watermark问题定位 2.1 watermark的设置 2.2 assign分发watermark选择 2.3 AssignerWithPeriodicWatermarks 2.4 AssignerWithPunctuatedWatermarks 2.5 BoundedOutOfOrdernessTimestampExtractor 随着业务的增长,培优内部对实时任务的需求也愈..原创 2021-11-29 20:13:39 · 1330 阅读 · 1 评论 -
Apache Flink如何处理背压
Apache Flink如何处理背压经常有人会问Flink如何处理背压问题。其实,答案很简单:Flink没用使用任何通用方案来解决这个问题,因为那根本不需要那样的方案。它利用自身作为一个纯数据流引擎的优势来优雅地响应背压问题。这篇文章,我们将介绍背压问题,然后我们将深挖Flink的运行时如何在task之间传输数据缓冲区内的数据以及流数据如何自然地两端降速来应对背压,最终将以一个小示例来演示它。1.什么是背压像Flink这样的流处理系统需要能够优雅地应对背压问题。背压通常产生于这样一种场景:当一个系统接原创 2021-02-08 13:17:54 · 736 阅读 · 0 评论