Flink
文章平均质量分 71
Vicky_Tang
You still have lots more to work on!
展开
-
大数据——Flink 中的角色及安装部署
一、Flink 中的角色Flink 也遵循主从原则,主节点为JobManager,从节点为TaskManager1.1. Client将任务提交到JobManager,并和JobManager进行任务交互获取任务执行状态。1.2. JobManager负责任务的调度和资源的管理。负责Checkpoint的协调过程。获取到客户端的任务后,会根据集群中 TaskManager 上 TaskSlot 的使用情况, 为提交的任务分配相应的 TaskSlots 资源,并命令 Task.原创 2021-08-24 14:37:23 · 11515 阅读 · 0 评论 -
大数据——Flink 入门程序(wordcount)
目录一、编程模型二、编程步骤三、DataStream 实时 wordcount四、DataSet 离线wordcount一、编程模型Flink提供了不同级别的编程抽象,通过调用抽象的数据集调用算子构建DataFlow就可以实现对分布式的数据进行流式计算和离线计算,DataSet是批处理的抽象数据集,DataStream是流式计算的抽象数据集,他们的方法都分别为Source、Transformation、SinkSource主要负责数据的读取 Transfor...原创 2021-08-24 17:33:12 · 11807 阅读 · 10 评论 -
大数据——Flink的KafkaSource和自定义Source
一、KafkaSource在流式处理过程中,Kafka 和 Flink 的整合是许多公司所使用的架构。而 Flink 和 Kafka 的整合也非常友好,代码非常简单,实际开发中使用较多package cn.kgc.sourceimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.s原创 2021-08-25 20:30:49 · 13511 阅读 · 0 评论 -
大数据——Flink 基础练习(将 Kafka 接收到的单词首字母大写后写回 Kafka 中)
一、创建 kafka_resource 和 kafka_sink 主题#创建kafka_source主题kafka-topics.sh --create --zookeeper master:2181 --topic kafka_source --partitions 2 --replication-factor 1#创建kafka_sink主题kafka-topics.sh --create --zookeeper master:2181 --topic kafka_sink --parti原创 2021-08-25 22:45:08 · 11036 阅读 · 2 评论 -
大数据——Flink 侧输出流练习(将集合中的整数按奇偶写入不同的流中)
代码如下package cn.kgc.transformimport org.apache.flink.streaming.api.functions.ProcessFunctionimport org.apache.flink.streaming.api.scala._import org.apache.flink.util.Collectorobject SideOutputStream1 { def main(args: Array[String]): Unit = {原创 2021-08-25 23:09:12 · 11149 阅读 · 2 评论 -
大数据——Flink dataStream 中窗口函数的使用
一、窗口类型Keyed 和 Non-Keyed上游算子是 KeyStream 类型,为 Keyed 窗口 上游算子不是 KeyStream 类型,为 Non-Keyed 窗口Keyed Windows使用window算子进行窗口定义No-Keyed Windows使用windowAll算子进行窗口定义数量、时间的窗口CountWindow 按照知道的数据条数生成一个 Window,与时间无关 滚动窗口(Tumbling Window)、滑动窗口(Sliding Window)原创 2021-08-26 21:17:56 · 11452 阅读 · 0 评论 -
大数据——Flink 时间语义
目录一、时间语义1.1 三种时间概念1.1.1 ProcessTime 在代码中的使用1.1.2 EventTime 在代码中的使用1.1.3 关于窗口起始时间的计算值二、对事件的处理2.1 有序事件2.2 乱序事件2.3 指定 Timestamps 与生成 Watermarks2.4 使用WatermarkStrategy 工具类指定时间戳和Watermark2.5 自定义指定 Timestamps 和 Watermarks2.6 对迟到数据的处理...原创 2021-08-26 23:13:48 · 11878 阅读 · 0 评论 -
大数据—— Flink 状态后端(State Backends)
由于有效的状态访问对于处理数据的低延迟只管重要,因此每个并行任务都会在本地维护其状态,以确保快速的状态访问。状态的存储、访问以及维护,有一个可插入的组件决定,这个组件就叫做状态后端(State Backends)状态后端主要负责两件事:本地的状态管理 将检查点(checkpoint)状态写入远程存储Flink 提供的状态后端:MemoryStateBackend:内存级的状态后端,会将键控状态作为内存中的对象进行管理,将它们存储在 TaskManager 的 JVM 堆上,而将 chec原创 2021-08-28 00:06:53 · 11739 阅读 · 2 评论 -
大数据——Flink Broadcast State 广播状态
一、BroadcastState 的介绍广播状态(Broadcast State)是 Operator State 的一种特殊类型。如果我们需要将配置 、规则等低吞吐事件流广播到下游所有 Task 时,就可以使用 BroadcastState。下游的 Task 接收这些配置、规则并保存为 BroadcastState,所有Task 中的状态保持一致,作用于另一个数据流的计算中。简单理解:一个低吞吐量流包含一组规则,我们想对来自另一个流的所有元素基于此规则进行评估。场景:动态更新计算规则。广播状态.原创 2021-08-31 23:24:56 · 12223 阅读 · 12 评论 -
大数据—— Flink 的优化
一、Flink内存优化大多数大数据框架都是基于JVM运行,如Hadoop、Spark、Storm,但是基于JVM的内存管理机制往往存在着类似于内存溢出等问题,主要是因为创建的对象过多超过了JVM最大堆内存限制,却没有被有效的回收掉。基于此,Flink自身实现了自己的内存管理。Flink 内存配置Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM...原创 2021-09-02 21:34:50 · 14749 阅读 · 20 评论 -
大数据——Flink 知识点整理
1. Flink 的特点Flink 具有高吞吐、低延时、高性能的特点 支持基于时间语义、窗口及状态编程 同时还具备了 checkpoint 和 savepoint 的功能2. Flink 和 SparkStreaming 的对比Flink支持实时流处理,而 SparkStreaming 是通过微批处理的方式来实现实时处理,牺牲了吞吐量 Flink 支持状态编程,而 SparkStreaming 不支持 Flink:JobManager、TaskManager SparkStreaming.原创 2021-09-04 16:56:25 · 11228 阅读 · 36 评论