flink
alexdamiao
good good study, day day up
展开
-
Flink之大数据计算框架的特性分析
Apache Flink Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。 Flink框架的主要特征包括: 高吞吐&低延时(真·流处理) 高可靠性(状态存储) 支持流处理、批处理,还提供CEP(复合事件处理)、ML(机器学习)、SQL的API(All in One) Flink组件栈 API支持 对Streaming数据类应用,提...原创 2019-05-05 21:46:52 · 694 阅读 · 0 评论 -
Flink之数据流编程模型(上)
DataSteam编程模型 Statefule Stream Processing: 是最低级别(底层)的抽象,只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户可以自由处理来源于一个或者多个流的事件。 DataStream/DataSet API: 在我们的实际工作中,大多数的应用程序是不需要上文所描述的低级别(底层)抽象,而是相对于诸如D...原创 2019-05-07 08:19:40 · 310 阅读 · 0 评论 -
Flink之Connector连接器
Streaming Connectors 预定义的Source和Sink 基于文件的Source readTextFile(path) readFile(fileInputFormat,path) 基于文件的Sink writeAsText writeAsCsv 基于Socket socketTextStream 基于Socket的Sink writeToSo...原创 2019-07-07 19:28:14 · 7901 阅读 · 1 评论 -
Flink之状态管理与容错机制
1 状态管理的基本概念 1.1 什么是状态 1.1.1 无状态的例子:消费延迟计算 消息队列: 一个生产者持续写入,多个消费组分别读取,如何实时统计每个消费者落后多少条数据? //输入 { "timestamp": 1555516800, "offset": { "producer": 16, "consumer0": 10, "consumer1": 7, "c...原创 2019-06-28 20:20:23 · 907 阅读 · 0 评论 -
Flink之运行时环境
Flink 运行时环境由两种类型进程组成,JobManager和TaskManager JobManager,也称为 master,用于协调分布式执行。负责调度任务,检查点,失败恢复等。 TaskManager,也称为 worker,用于执行数据流图的任务(更准确地说,是计算子任务),并对数据流进行缓冲、交换。Flink 运行环境中至少包含一个任务管理器。 Flink作业流程 Flink...原创 2019-06-28 20:23:07 · 1263 阅读 · 0 评论