Flink
文章平均质量分 93
五分钟学大数据
公众号:五分钟学大数据
展开
-
大数据中必须要掌握的 Flink SQL 详细剖析
目录1. Flink SQL 常用算子2. Flink SQL 实战案例Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡献就是 Flink SQL 的原创 2021-11-05 13:56:10 · 4728 阅读 · 8 评论 -
Flink 的运行架构详细剖析
1. Flink 程序结构Flink 程序的基本构建块是流和转换(请注意,Flink 的 DataSet API 中使用的 DataSet 也是内部流 )。从概念上讲,流是(可能永无止境的)数据记录流,而转换是将一个或多个流作为一个或多个流的操作。输入,并产生一个或多个输出流。Flink 应用程序结构就是如上图所示:Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自原创 2021-11-04 14:00:14 · 937 阅读 · 0 评论 -
Flink保姆级教程,超全五万字,学习与面试收藏这一篇就够了
本文目录:一、Flink简介二、Flink 部署及启动三、Flink 运行架构四、Flink 算子大全五、流处理中的 Time 与 Window六、Flink 状态管理七、Flink 容错八、Flink SQL九、Flink CEP十、Flink CDC十一、基于 Flink 构建全场景实时数仓十二、Flink 大厂面试题Flink 涉及的知识点如下图所示,本文将逐一讲解:本文档参考了Flink 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不.原创 2021-09-16 17:41:43 · 69185 阅读 · 30 评论 -
一文学会 Flink CEP(以直播平台监控用户弹幕为例)
我们在看直播的时候,不管对于主播还是用户来说,非常重要的一项就是弹幕文化。为了增加直播趣味性和互动性, 各大网络直播平台纷纷采用弹窗弹幕作为用户实时交流的方式,内容丰富且形式多样的弹幕数据中隐含着复杂的用户属性与用户行为, 研究并理解在线直播平台用户具有弹幕内容审核与监控、舆论热点预测、个性化摘要标注等多方面的应用价值。本文不分析弹幕数据的应用价值,只通过弹幕内容审核与监控案例来了解下Flink CEP的概念及功能。在用户发弹幕时,直播平台主要实时监控识别两类弹幕内容:一类是发布不友善弹幕的用户 ,原创 2021-04-16 14:09:01 · 1918 阅读 · 2 评论 -
硬核!一文学完Flink流计算常用算子(Flink算子大全)
直入正题!Flink和Spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。所以下面将Flink的算子分为两大类:一类是DataSet,一类是DataStream。DataSet欢迎关注公众号【五分钟学大数据】,都是大数据干货!一、Source算子1. fromCollectionfromCollection:从本地集合读取数据例:val env = ExecutionEnvironment.getExecutionE原创 2021-03-12 15:21:13 · 2210 阅读 · 1 评论 -
硬核!八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once(深入原理,建议收藏)
Flink在 Flink 中需要端到端精准一次处理的位置有三个:Source 端:数据从上一阶段进入到 Flink 时,需要保证消息精准一次消费。Flink 内部端:这个我们已经了解,利用 Checkpoint 机制,把状态存盘,发生故障的时候可以恢复,保证内部的状态一致性。不了解的小伙伴可以看下我之前的文章:Flink可靠性的基石-checkpoint机制详细解析Sink 端:将处理完的数据发送到下一阶段时,需要保证数据能够准确无误发送到下一阶段。在 Flink 1.4 版本原创 2021-02-01 21:22:11 · 680 阅读 · 0 评论 -
Flink可靠性的基石-checkpoint机制详细解析
Checkpoint介绍checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个 CheckpointCoordinator(检查点协调器),CheckpointCoordi原创 2021-01-27 20:12:35 · 1239 阅读 · 0 评论 -
Flink 中极其重要的 Time 与 Window 详细解析(深度好文,建议收藏)
前言Flink 是流式的、实时的 计算引擎上面一句话就有两个概念,一个是流式,一个是实时。流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔多长时间就划分一个边界,根据数据量就是每来多少条数据划分一个边界,Flink 中就是这么划分边界的,本文会详细讲解。实时:就是数据发送过来之后立马就进行相关的计算,然后将结果输出。这里的计算有两种:原创 2021-01-25 20:16:11 · 1200 阅读 · 0 评论