大数据技术
专栏专注于大数据技术研究和分享
alexdamiao
good good study, day day up
展开
-
Flink之运行时环境
Flink 运行时环境由两种类型进程组成,JobManager和TaskManagerJobManager,也称为 master,用于协调分布式执行。负责调度任务,检查点,失败恢复等。 TaskManager,也称为 worker,用于执行数据流图的任务(更准确地说,是计算子任务),并对数据流进行缓冲、交换。Flink 运行环境中至少包含一个任务管理器。Flink作业流程Flink...原创 2019-06-28 20:23:07 · 1284 阅读 · 0 评论 -
Flink之状态管理与容错机制
1 状态管理的基本概念1.1 什么是状态1.1.1 无状态的例子:消费延迟计算消息队列:一个生产者持续写入,多个消费组分别读取,如何实时统计每个消费者落后多少条数据?//输入{ "timestamp": 1555516800, "offset": { "producer": 16, "consumer0": 10, "consumer1": 7, "c...原创 2019-06-28 20:20:23 · 937 阅读 · 0 评论 -
Flink之数据流编程模型(上)
DataSteam编程模型Statefule Stream Processing: 是最低级别(底层)的抽象,只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户可以自由处理来源于一个或者多个流的事件。DataStream/DataSet API: 在我们的实际工作中,大多数的应用程序是不需要上文所描述的低级别(底层)抽象,而是相对于诸如D...原创 2019-05-07 08:19:40 · 328 阅读 · 0 评论 -
Flink之大数据计算框架的特性分析
Apache FlinkFlink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。Flink框架的主要特征包括:高吞吐&低延时(真·流处理)高可靠性(状态存储)支持流处理、批处理,还提供CEP(复合事件处理)、ML(机器学习)、SQL的API(All in One)Flink组件栈API支持对Streaming数据类应用,提...原创 2019-05-05 21:46:52 · 710 阅读 · 0 评论