- 博客(4)
- 收藏
- 关注
原创 Flink | EventTime 和Watermark
通常情况下,由于网络原因或系统等外部因素,事件数据往往不能及时传输到Flink系统中,导致数据乱序到达或延迟到达,因此需要一种机制能够控制数据处理的过程和进度。水平线(watermarks)机制,它能够衡量数据处理进度,保证事件数据到达Flink系统,或者在乱序和延迟时,也能够像预期一样计算出正确并且连续的结果。Flink会将用读取进去系统的最新事件时间减去固定的时间间隔作为w...
2019-08-10 20:52:49 444
原创 Flink 的时间类型
对于流式数据处理,最大的特点就是数据具有时间的属性,Flink根据时间的产生位置分为三种类型,事件生成时间(Event Time)、事件接入时间(Ingestion Time)、事件处理时间(Processing Time)。用户可以根据具体业务灵活选择时间类型。 1、事件时间(Event Time): 事件时间是每个独立事件在产生它的设备上发生的时间...
2019-08-09 12:51:23 1992
原创 DataStream 编程模型(一) DataSources数据输入
DataSources 模块定义了DataStream API 中的数据输入操作,Flink 将数据源主要分为内置数据源和第三方数据源。其中内置数据源包含文件、Socket网络端口、集合类型数据,不需要引入第三方依赖。第三方数据源定义了数据的读写接口和丰富的第三方数据源连接器。例如Kafka 、Elasticsearch 等。同时用户也可以自定义实现Flink中数据接入函数So...
2019-08-06 21:17:34 661
原创 Flink 基本介绍及框架原理
Flink 官网文档:https://ci.apache.org/projects/flink/flink-docs-release-1.8/ 一、Flink是什么? Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执...
2019-08-05 16:19:47 571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人