自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

转载 我是 Flink,现在 “背” 感压力

为什么你的Flink运行开始减慢了?为什么你试遍Flink参数还是无法解决?Flink背压常常发生在生产事故中,切记不要掉以轻心。不知为何,最近的我开始走下坡路了。。。1 故事的开始此刻,我抬头看了一眼坐在对面的这个家伙: 格子衫、中等身材,略高的鼻梁下顶着一副黑框眼镜,微眯的目光透出丝丝倦意,正一眨不眨地盯着我看。我心里直犯嘀咕: 我又有什么好看的呢?不过是A君你用来换取面包、汽车的工具罢了。虽然陪伴了五年的时光,想来也就是如此~说到这,忘了自我介绍了。我叫Flink,当然,我还是喜欢.

2022-02-22 22:12:11 491 1

原创 从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(下)

为什么我要把这段话放在最前面呢?因为博主有了大发现,博主在总结学习的过程中,总结了除了 Flink CP、Chandy-Lamport 全局一致性快照算法之外的一种 通用全局一致性快照算法!!!。这套 通用算法 包含 Chandy-Lamport 算法 ≈ Flink 非对齐 CP 算法 包含 Flink 对齐 CP 算法。可能这一套 通用算法 之前已经有人提过了,但是博主是自己在总结 Flink CP、Chandy-Lamport 算法的过程中,逆推总结出来的,并没有借助外力!!!1.前言对于很多

2022-02-22 22:09:45 991

转载 最新数仓指标体系建模方法

指标体系指标建设过程中遇到的问题指标建设方法论指标的构成如何设立指标体系评价指标体系指标管理场景落地总结指标体系提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等 事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,用户粘性等等,例如我们通过日活能去判断出我们整个产品的用户量,从而能反应出我们这个产品的一个健康程度,也就是..

2022-02-21 23:04:39 989

原创 从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(中)

为什么我要把这段话放在最前面呢?因为博主有了大发现,博主在总结学习的过程中,总结了除了 Flink CP、Chandy-Lamport 全局一致性快照算法之外的一种 通用全局一致性快照算法!!!。这套 通用算法 包含 Chandy-Lamport 算法 ≈ Flink 非对齐 CP 算法 包含 Flink 对齐 CP 算法。可能这一套 通用算法 之前已经有人提过了,但是博主是自己在总结 Flink CP、Chandy-Lamport 算法的过程中,逆推总结出来的,并没有借助外力!!!1.前言对于很多

2022-02-20 14:46:02 1396

原创 从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(上)

1.前言对于很多做离线或者实时数仓的小伙伴来说,我先问几个问题,看看小伙伴萌能回答上来吗?⭐ 你知道状态是什么吗?在离线数据开发的经历中,你碰到过状态的概念吗?⭐ 为什么离线数仓不需要状态,实时数据开发中老是提到状态的概念?⭐ Flink 中的状态、状态后端、全局一致性快照(Checkpoint\Savepoint) 的作用都是什么,这三个概念的关联又是什么?⭐ Flink 是通过什么机制来做 Checkpoint 的?为什么这套机制能够做到精确一次呢?⭐ Flink Che

2022-02-20 14:42:20 934

转载 剖析 4.7k Star 的新一代元数据平台 Datahub

随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。通过本文档,可以快速的入门Datahub,成功的搭建Datahub并且获取到数据库的元数据信息。是从0到1的入门文档,更多Datahub的高级功能,可以关注后续的文章更新。正文共: 10289字 32图预计阅读时间:

2022-02-15 23:43:56 2569 2

转载 10w 个 Worker 的 Spark 任务是怎么运行的?(分布式计算)

0 前言大家好,我是小林!本篇文章是 Spark 系列的第三篇文章。前两篇文章可以看这里:RDD 编程模型:延迟计算是怎么回事?Spark 数据依赖图是啥?本文概览在第二篇文章中,小林讲到一个 Spark 任务首先要生成数据依赖图,也就是 Job 的逻辑执行图,然后根据一定的规则转化成 Job 的物理执行图,才能真正的执行。并且在第一篇文章中举了一个 word count 的例子,你可以回顾下这两张图,理解一下第二篇讲的逻辑执行图到物理执行图的转换:wordcount 逻辑执行图wor

2022-02-15 23:41:59 298

转载 71 篇 Flink 实战及原理解析文章(面试必备)

去重系列一、Flink去重第一弹:MapState去重二、Flink去重第二弹:SQL方式三、Flink去重第三弹:HyperLogLog去重四、关于hyperloglog去重优化五、关于bitmap的使用总结六、Flink去重第四弹: bitmap精确去重七、编码方式实现Split Distinct Aggregation功能实战系列目录:一、热点流量优化二、分流三、自定义RetractStreamTableSink四、自定义UpsertStreamTableSink五、Flin

2022-02-14 20:50:21 1802

转载 10w 字、10 种大数据引擎面试知识点手册

技术如同手中的水有了生命似的,汇聚在了一起。大数据框架面试知识点分散,现在不怕了,10万字大数据框架面试知识点给大家准备好了,一本在手,全部都有。更有利用大数据开发的命令手册(纯净版)md文件和pdf文件方便打印,方便大家修改与增加。为开发助力。时刻关注,此文档会持续更新丰富内容。10万字大数据框架主要包含大数据开发的命令手册(纯净版)包含怎么获取技术如同手中的水有了生命似的,汇聚在了一起。作为大数据开发工作者,致力于大数据技术的学习与工作,分享大数据原理、架构、实时、离线、面试与总结,分享

2022-02-14 20:47:56 132

转载 14w 字大数据技术架构手册横空出世(大数据猿必备)

开头从19年开始注册,荒废了一年,大概从20年年底开始正式运营,早期定位是个人总结复盘,没有萌生以此作为副业的念头,开始的文章大多偏向于技术底层。21年看着身边的朋友搞有了不错的收入后,也渐渐的想加入进来,但随着深入之后发现其实并不简单,大家都知道是一个封闭式流量池,引流是一件很痛苦的事情,而且小编对于运营也是一窍不通,这一年也是搞了些花里胡哨的运营手段,再加上平时工作比较繁忙。所以截止目前向朋友们炫耀一下得到的一些成绩:1、即没有破万粉2、阅读量也很惨淡3、得到一些粉丝的谩骂,吃相难看4、也

2022-02-14 20:45:26 259

原创 flink sql 知其所以然(十九):Table 与 DataStream 的转转转(附源码)

1.序篇源码公众号后台回复1.13.2 table datastream获取。废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,Flink 支持了 SQL 和 Table API 中的 Table 与 DataStream 互转的接口。通过这种互转的方式,我们就可以将一些自定义的数据源(DataStream)创建为 SQL 表,也可以将 SQL 执行结果转换为 DataStream 然后后续去完成一些在

2022-02-13 22:54:52 1642

原创 flink sql 知其所以然(十八):在 flink 中还能使用 hive udf?附源码

1.序篇源码公众号后台回复1.13.2 sql hive udf获取。废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,其实很多场景下实时数仓的建设都是随着离线数仓而建设的(相同的逻辑在实时数仓中重新实现一遍),因此能够在 flink sql 中复用 hive udf 是能够大大提高人效的。flink 扩展支持 hive 内置 udf:flink sql 提供了扩展 udf 的能力,即 modul

2022-02-13 22:52:53 1752

原创 flink sql 知其所以然(十七):flink sql 开发利器之 Zeppelin

1.序篇上节介绍了 flink sql 的企业级开发利器 Dlink。本节就来介绍下 Apache Zeppelin。本节主要介绍一下博主在本地部署 Apache Zeppelin 的过程以及感受。先说下安装感受,Apache Zeppelin 安装起来真的是非常的方便!!!几步就完成了。2.Apache Zeppelin 平台效果具体功能如下图所示:sql 开发sql 开发3.安装部署篇安装真的很简单。可以参考 jeff 大佬的安装教程,也可以参考博主本文的安装教程。jeff

2022-02-13 22:48:39 1137

原创 flink sql 知其所以然(十六):flink sql 开发企业级利器之 Dlink

1.序篇博主这个系列都是讲 flink sql 相关的实践的。讲到这个章节,其实挺多常用的 flink sql 语法及实战案例都已经讲了。那么原理讲了,得在自己家公司把 flink sql 这等好东西用起来啊。搞大数据开发的同学基本都知道在 HUE 上面写 hive sql 贼爽。那么有没有写 flink sql 的企业级的 web IDE 推荐的呢?经过博主调研之后,发现有两款非常优秀的利器:Apache ZeppelinDlink为啥先介绍 Dlink 呢?因为博主和其开发

2022-02-13 22:47:59 1965 1

原创 Flink 代码这么写,窗口能触发才怪(不良编程习惯)

1.序篇-先说结论本文主要记录小伙伴萌在使用 DataStream API 实现事件时间窗口类应用时会遇到的窗口不触发问题的坑以及其排查过程。博主希望你在看完本文后一定要养成这个编程习惯:使用 DataStream API 实现 Flink 任务时,Watermark Assigner 能靠近 Source 节点就靠近 Source 节点,尽量前置。要想问为啥,接着往下看!!!我从以下几个章节说明上述的问题以及为什么这样建议,希望能抛砖引玉,带给大家一些启发。⭐ 踩坑场景篇-这个坑是啥样的

2022-02-13 13:56:56 1262

原创 晋升季,如何减少 50%+ 的答辩材料准备时间、调整心态(个人经验总结)

1.前言陪伴了小伙伴萌这么久,写的都是一些技术干货,还没有聊过工作上成长的经验。那么为什么突然要聊这么一个话题呢,有两个原因:最近博主晋升了一次,在这个过程中,准备答辩内容及材料是非常耗时耗力的,相信小伙伴萌不花上一个月、不改个 3 遍以上的答辩材料都是 NB 的了,搞完一次答辩褪一层皮(大概率是博主比较菜,所以才花了这么长时间)。博主最初准备时,在网上也各种搜索相关的经验贴,但是相关的帖子没那么多,而且不成体系。因此萌生了分享一下晋升答辩准备过程的想法,有一些方法的沉淀的话,后续对自

2022-02-12 22:23:49 434

原创 18w 字 Flink SQL 成神之路手册,横空出世

与大家一起学习大数据开发、面试、框架、实时离线计算、数仓保障 Flink/ClickHouse/Kafka/Spark/Hadoop 技术干货、资料下载、源码解读等 ...

2022-02-05 17:38:53 2156

原创 (上)史上最全 Flink SQL 成神之路(全文 18 万字、138 个案例、42 张图)

1.前言看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说__的文章会让你明白博主会阐明博主期望本文能给小伙伴们带来什么帮助,让小伙伴萌能直观明白博主的心思博主会以实际的应用场景和案例入手,不只是知识点的简单堆砌博主会把重要的知识点的原理进行剖析,让小伙伴萌做到深入浅出gzh:大数据羊说与大家一起学习大数据开发、面试、框架、实时离线计算、数仓保障 Flink/ClickHouse/Kafka/Spark/Hadoop 技术干货、资料下载、源码解读等52篇

2022-02-04 11:57:17 3049 1

原创 flink sql 知其所以然(十五):改了改源码,实现了个 batch lookup join(附源码)

看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白

2021-12-05 23:08:39 2741 1

原创 flink sql 知其所以然(十四):维表 join 的性能优化之路(上)附源码

看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白 大数据羊说 用数据提升美好事物发生的概率~ 43篇原创内容

2021-12-01 10:03:47 2879 5

原创 flink sql 知其所以然(十三):流 join 很难嘛?(下)

用数据提升美好事物发生的概率~

2021-12-01 09:58:42 2337 1

原创 flink sql 知其所以然(十二):流 join 很难嘛?(上)

1.序篇看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白1. 博主会阐明博主期望本文能给小伙伴们带来什么帮助,让小伙伴萌能直观明白博主的心思2. 博主会以实际的应用场景和案例入手,不只是知识点的简单堆砌3. 博主会把重要的知识点的原理进行剖析,让小伙伴萌做到深入浅出进入正文。源码公众号后台回复1.13.2 sql join 的奇妙解析之路获取。下面即是文章目录,也对应到本文的结论,小伙伴可以先看结论快速了解本文能给你带来什么帮助:背景及应用场景介绍:join 作为离线

2021-11-28 20:57:47 1321

原创 flink sql 知其所以然(十一):去重不仅仅有 count distinct 还有强大的 deduplication

想啥呢,小宝贝,还不三连???(关注  +  点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇源码公众号后台回复1.13.2 deduplication 的奇妙解析之路获取。下面即是文章目录,也对应到了本文的结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你了解到,flink sql 的 deduplication 其实就是 row_number = 1,所以它可以在去重的同时,还能保留原始字段数据来一

2021-11-25 09:29:29 1141

原创 flink sql 知其所以然(十):大家都用 cumulate window 计算累计指标啦

想啥呢,小宝贝,还不三连???(关注  +  点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇源码公众号后台回复1.13.2 cumulate window 的奇妙解析之路获取。此节就是窗口聚合章节的第三篇,上节介绍了 1.13 window tvf tumble window 实现,本节主要介绍 1.13. window tvf 的一个重磅更新,即 cumulate window。本节从以下几个章节给大家详细介绍 cumulate window 的能

2021-11-21 17:51:30 3803 2

原创 当我们在做流批一体时,我们在做什么?

1.前言本文主要是分享目前博主理解的流批一体产生的背景,想解决的问题,以及后续可能实现的思路,并以几个案例进行介绍。抛砖引玉,让大家不止停留在做流批一体这件事,而是能更深入思考背后的原因。2.背景在介绍流批一体之前,首先看看目前流和批领域常用的引擎:批任务:常用 Hive、Spark。流任务:常用 Flink。Spark Streaming 与 Storm 使用率目前在流式场景会小于 Flink。3.什么问题导致产生了流批一体的概念呢?一个前提:在生产场景中,当同一个口径的指标分别用流任务产出了实时数据,用

2021-11-18 21:31:11 885

原创 flink sql 知其所以然(八):flink sql tumble window 的奇妙解析之路

感谢您的小爱心(关注  +  点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~

2021-09-12 12:05:09 2854 1

原创 flink sql 知其所以然(七):不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧?

感谢您的小爱心(关注  +  点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构前面的章节铺垫了那么多,终于在本节走入一条 query 了。针对 datastream api 大家都比较熟悉了,还是那句话,在 datastream 中,你写的代码逻辑是什么样的,它最终的执行方式就是什么样的。但是对于 flink sql 的执行过程,大家还是不熟悉的。因此本文通过以下章节使用 ETL,group agg(sum,count等)简单聚合类 quer

2021-09-05 23:20:57 860

原创 flink sql 知其所以然(六)| flink sql 约会 calcite(看这篇就够了)

感谢您的小爱心(关注  +  点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~

2021-09-04 10:42:33 1329 1

原创 flink sql 知其所以然(五)| 自定义 protobuf format

感谢您的关注  +  点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~

2021-08-25 21:20:59 1324

原创 踩坑记| flink state 序列化 java enum 竟然岔劈了

❝感谢您的「关注  +  点赞 + 再看」,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!❞1.序篇-先说结论 大数据羊说 用数据提升美好事物发生的概率~

2021-08-24 23:38:17 242

原创 flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)

感谢您的关注  +  点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构背景篇-为啥需要 redis 维表目标篇-做 redis 维表的预期效果是什么难点剖析篇-此框架建设的难点、目前有哪些实现维表实现篇-维表实现的过程总结与展望篇本文主要介绍了 flink sql redis 维表的实现过程。如果想在本地测试下:

2021-08-22 12:23:40 893 1

原创 flink sql 知其所以然(四)| sql api 类型系统

感谢您的关注  +  点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-先说结论 大数据羊说 用数据提升美好事物发生的概率~

2021-08-22 12:12:22 535

原创 flink sql 知其所以然(三)| 自定义 redis 数据汇表(附源码)

感谢您的关注  +  点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构背景篇-为啥需要 redis 数据汇表目标篇-redis 数据汇表预期效果难点剖析篇-此框架建设的难点、目前有哪些实现维表实现篇-实现的过程总结与展望篇本文主要介绍了 flink sql redis 数据汇表的实现过程。

2021-08-17 00:26:00 537

原创 flink sql 知其所以然(一)| source\sink 原理

感谢您的关注  +  点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构本文从以下五个小节介绍 flink sql source\sink\format 的概念、原理。背景篇-关于 sql定义篇-sql source、sink实战篇-sql source、sink 的用法原理剖析篇-sql source、sink 是怎么跑起来的总结与展望篇2.背景篇-关于 sql关于 flink sql 的定位。先聊聊使用 sql 的原因,总结来说就是一切从简。

2021-08-15 20:44:11 1732

原创 生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表?

生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表?❝本系列每篇文章都是从一些实际生产实践需求出发,解决一些生产实践中的问题,抛砖引玉,以帮助小伙伴们解决一些实际生产问题。本篇文章主要介绍直播间画像实时维表建设的整个过程,如果对小伙伴有帮助的话,欢迎点赞 + 再看~❞技术架构回顾上一节的「技术架构」图。技术架构整个架构相对来说是比较好理解的。从数据源到数据处理以及最后到数据汇部分。但是大家的疑惑点可能就集中在三个维表的建设上,包含「主播用户画像维表,观.

2020-11-08 20:07:39 290

原创 生产实践 | Flink + 直播 (一)| 需求和架构篇

生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇❝本系列每篇文章都是从一些实际生产实践需求出发,解决一些生产实践中的问题,抛砖引玉,以帮助小伙伴们解决一些实际生产问题。相信大家或多或少都观看过直播,那大家有没有想过,如果自己负责建设公司内整体直播实时数据,会怎样去建设呢?本系列文章主要介绍直播实时数据建设的整个过程,如果对小伙伴有帮助的话,欢迎点赞 + 再看~❞首先思考几个问题 「WHAT:相信大家或多或少都观看过直播,甚至自己就是一名主播或负责的业务就是直播相关

2020-11-08 19:40:56 553 5

原创 踩坑记 | Flink 天级别窗口中存在的时区问题

踩坑记 | Flink 天级别窗口中存在的时区问题本系列每篇文章都是从一些实际的 case 出发,分析一些生产环境中经常会遇到的问题,抛砖引玉,以帮助小伙伴们解决一些实际问题。本文介绍 Flink 时间以及时区问题,分析了在天级别的窗口时会遇到的时区问题,如果对小伙伴有帮助的话,欢迎点赞 + 再看~本文主要分为两部分:第一部分(第 1 - 3 节)的分析主要针对 flink,分析了 flink 天级别窗口的中存在的时区问题以及解决方案。第二部分(第 4 节)的分析可以作为所有时区问题的分析思路,

2020-10-17 21:16:47 1035 1

原创 Tips | Flink 使用 union 代替 join、cogroup

Tips | Flink 使用 union 代替 join、cogroup本系列每篇文章都比较短小,不定期更新,从一些实际的 case 出发抛砖引玉,提高小伙伴的姿♂势水平。本文介绍在满足原有需求、实现原有逻辑的场景下,在 Flink 中使用 union 代替 cogroup(或者join) ,简化任务逻辑,提升任务性能的方法,阅读时长大概一分钟,话不多说,直接进入正文!需求场景分析需求场景需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的点赞,播放,评论,分享,举报五类实时指标,并且汇总

2020-10-04 20:36:09 532

原创 踩坑记 | Flink 事件时间语义下数据乱序丢数踩坑

踩坑记 | Flink 事件时间语义下数据乱序丢数踩坑公众号(mangodata)里回复 flink 关键字可以获取 flink 的学习资料以及视频。本文详细介绍了在上游使用处理时间语义的 flink 任务出现故障后,重启消费大量积压在上游的数据并产出至下游数据乱序特别严重时,下游 flink 任务使用事件时间语义时遇到的大量丢数问题以及相关的解决方案。本文分为以下几个部分:1.本次踩坑的应用场景2.应用场景中发生的丢数故障分析3.待修复的故障点4.丢数故障解决方案及原理5.总结应

2020-09-26 15:36:55 976

原创 Tips | Flink sink schema 字段设计小技巧

Tips | Flink sink schema 字段设计小技巧公众号(mangodata)里回复 flink 关键字可以获取 flink 的学习资料以及视频。本系列每篇文章都比较短小,不定期更新,从一些实际的 case 出发抛砖引玉,提高小伙伴的姿♂势水平。本文介绍 Flink sink schema 字段设计小技巧,阅读时长大概 2 分钟,话不多说,直接进入正文!sink schema 中添加 version 版本字段如 title,直接上实践案例和使用方式。实践案例及使用方式非故障场

2020-09-26 15:28:15 438

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除