- 博客(11)
- 收藏
- 关注
原创 Flink源码漫游指南<柒>Stateful Stream:从逻辑到物理
Flink的八股文里一定离不开一个知识点:flink的四大基石是什么?答:检查点、状态、时间、窗口。今天我们从状态(state)开始,捋一捋它是怎么工作的
2022-03-25 02:47:16 228
原创 Flink源码漫游指南<陆>Flink的默认资源调度过程
本篇从源码深入剖析了Flink的默认资源调度过程,希望大家看得开心,有哪写错了的地方欢迎指出。
2022-03-23 02:04:30 2126
原创 Flink源码漫游指南<伍>集群是如何启动的
当用户用Session cli命令启动集群时,首先会在Flink集群启动脚本中调用ClusterEntrypoint抽象类中提供的main()方法,以启动和运行相应类型的集群环境。
2022-03-18 18:23:35 2758
原创 「吉光片羽:文献阅读记录」Recovery-Conscious Adaptive WatermarkGeneration for Time-Order Event Stream ...
本文是日本川崎的富士通实验室发表于2020 IEEE/ACM Fifth International Conference on Internet-of-Things Design and Implementation (IoTDI)的一篇会议文章,也是关于流处理引擎中延迟数据处理问题的。INTRODUCTION有许多real-time物联网应用程序高度依赖于事件发生的顺序,例如从联网的汽车接收输入信息的自动事故原因分析,以及智能交通系统在交通事故发生的瞬间对事件发生顺序的关注(比如,是某辆车先
2022-03-06 11:44:36 328
原创 「吉光片羽:文献阅读记录」Adaptive Watermarks: A Concept Drift-based Approach for Predicting Event-Time Progress
本文提出了一种自适应水印生成策略并在Apache Flink中实现
2022-03-02 23:50:45 644
原创 尚硅谷离线数仓架构图重绘
这几天重新回顾离线数仓的项目,一边看一边重新梳理了架构图,主要是重画了flume和kafka这块,注意一下生产flume和消费flume里面的设计,hive的建仓太复杂,画不出来采集FlumeTailDir Source:用TailDir Source,好处:断点续传、多目录。Exec Source 不能断点续传。Spooling Directory Source只能单目录。 LogInterceptor:拦截器,过滤脏数据 Kafka Channel:省去sink,直接传kafka效率更高
2021-11-20 17:01:46 1534
原创 Flink源码拾遗<肆>:WindowStream
使用过WindowedStream的同学一定对WindowAssigner、trigger和evictor不陌生,可以说这三者共同定义了一个window流的核心,为什么这么说呢,我们打开WindowedStream类瞅一瞅可以看到,WindowedStream类一共就只有六个属性,最核心的就是红线划出来的铁三角其中:WindowAssigner定义了进入窗口流的element进入哪些窗口,创建窗口流时必须由用户传入 当Trigger被流中的事件触发时,Trigger会决定当前窗口是否进行.
2021-11-19 21:47:31 1197
原创 Flink源码拾遗<三>:DataStream
我们在上一篇文章中通过一个wordcount例子引入了对StreamExecutionEnviornment的思考,这一篇文章我们依然从这个例子说起,我们来看看wordcount中算子转化的部分吧。DataStream<WordWithCount> windowCount = text.flatMap(new FlatMapFunction<String, WordWithCount>() { public void flatMap(String val
2021-11-08 16:09:06 360
原创 Flink源码拾遗<二>:StreamExecutionEnviornment
StreamExecutionEnvironment是stream program执行的环境,其子类LocalStreamEnvironment会让程序在当前JJVM中执行,而子类RemoteStreamEnvironment会让程序在远程集群中执行。 ——Flink官方注释首先,我们来看一看一个典型的Flink中的wordcount程序是什么样的。public class WordCount { public static void main(String[] args) thr..
2021-11-07 10:53:50 2424
原创 Flink源码拾遗<一>:源码下载、导入与编译
1、环境准备JDK:建议使用 java_8u51 以上的java8 JDK,以避免使用 PowerMock Runner 的单元测试失败maven:小白建议用3.2.5版本(Maven 3.3.x 可以构建 Flink,但是不能正确地屏蔽掉指定的依赖。Maven 3.2.5 可以正确地构建库文件) 安装方法这篇文章讲的很全。IDE:我用的idea 2021.2安装后记得在IDEA上修改maven配置,修改为与你的实际设置一样,我的配置如下图2、源码下载因为只有windows系..
2021-11-06 20:59:13 1264
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人