自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 尚硅谷实时数仓架构图重绘

这几天跟着教程自学了一下,顺便画了各层之间的关系,欢迎捉虫

2022-04-09 18:02:40 509

原创 Flink源码漫游指南<柒>Stateful Stream:从逻辑到物理

Flink的八股文里一定离不开一个知识点:flink的四大基石是什么?答:检查点、状态、时间、窗口。今天我们从状态(state)开始,捋一捋它是怎么工作的

2022-03-25 02:47:16 228

原创 Flink源码漫游指南<陆>Flink的默认资源调度过程

本篇从源码深入剖析了Flink的默认资源调度过程,希望大家看得开心,有哪写错了的地方欢迎指出。

2022-03-23 02:04:30 2126

原创 Flink源码漫游指南<伍>集群是如何启动的

当用户用Session cli命令启动集群时,首先会在Flink集群启动脚本中调用ClusterEntrypoint抽象类中提供的main()方法,以启动和运行相应类型的集群环境。

2022-03-18 18:23:35 2758

原创 「吉光片羽:文献阅读记录」Recovery-Conscious Adaptive WatermarkGeneration for Time-Order Event Stream ...

本文是日本川崎的富士通实验室发表于2020 IEEE/ACM Fifth International Conference on Internet-of-Things Design and Implementation (IoTDI)的一篇会议文章,也是关于流处理引擎中延迟数据处理问题的。INTRODUCTION有许多real-time物联网应用程序高度依赖于事件发生的顺序,例如从联网的汽车接收输入信息的自动事故原因分析,以及智能交通系统在交通事故发生的瞬间对事件发生顺序的关注(比如,是某辆车先

2022-03-06 11:44:36 328

原创 「吉光片羽:文献阅读记录」Adaptive Watermarks: A Concept Drift-based Approach for Predicting Event-Time Progress

本文提出了一种自适应水印生成策略并在Apache Flink中实现

2022-03-02 23:50:45 644

原创 尚硅谷离线数仓架构图重绘

这几天重新回顾离线数仓的项目,一边看一边重新梳理了架构图,主要是重画了flume和kafka这块,注意一下生产flume和消费flume里面的设计,hive的建仓太复杂,画不出来采集FlumeTailDir Source:用TailDir Source,好处:断点续传、多目录。Exec Source 不能断点续传。Spooling Directory Source只能单目录。 LogInterceptor:拦截器,过滤脏数据 Kafka Channel:省去sink,直接传kafka效率更高

2021-11-20 17:01:46 1534

原创 Flink源码拾遗<肆>:WindowStream

使用过WindowedStream的同学一定对WindowAssigner、trigger和evictor不陌生,可以说这三者共同定义了一个window流的核心,为什么这么说呢,我们打开WindowedStream类瞅一瞅可以看到,WindowedStream类一共就只有六个属性,最核心的就是红线划出来的铁三角其中:WindowAssigner定义了进入窗口流的element进入哪些窗口,创建窗口流时必须由用户传入 当Trigger被流中的事件触发时,Trigger会决定当前窗口是否进行.

2021-11-19 21:47:31 1197

原创 Flink源码拾遗<三>:DataStream

我们在上一篇文章中通过一个wordcount例子引入了对StreamExecutionEnviornment的思考,这一篇文章我们依然从这个例子说起,我们来看看wordcount中算子转化的部分吧。DataStream<WordWithCount> windowCount = text.flatMap(new FlatMapFunction<String, WordWithCount>() { public void flatMap(String val

2021-11-08 16:09:06 360

原创 Flink源码拾遗<二>:StreamExecutionEnviornment

StreamExecutionEnvironment是stream program执行的环境,其子类LocalStreamEnvironment会让程序在当前JJVM中执行,而子类RemoteStreamEnvironment会让程序在远程集群中执行。 ——Flink官方注释首先,我们来看一看一个典型的Flink中的wordcount程序是什么样的。public class WordCount { public static void main(String[] args) thr..

2021-11-07 10:53:50 2424

原创 Flink源码拾遗<一>:源码下载、导入与编译

1、环境准备JDK:建议使用 java_8u51 以上的java8 JDK,以避免使用 PowerMock Runner 的单元测试失败maven:小白建议用3.2.5版本(Maven 3.3.x 可以构建 Flink,但是不能正确地屏蔽掉指定的依赖。Maven 3.2.5 可以正确地构建库文件) 安装方法这篇文章讲的很全。IDE:我用的idea 2021.2安装后记得在IDEA上修改maven配置,修改为与你的实际设置一样,我的配置如下图2、源码下载因为只有windows系..

2021-11-06 20:59:13 1264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除