![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
文章平均质量分 88
十二点的泡面
这个作者很懒,什么都没留下…
展开
-
大数据学习之Flink算子、了解(Transformation)转换算子(基础篇三)
数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个 DataStream 转换为新的 DataStream,如图所示。一个Flink程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。代码如下:运行结果:直观上看,基本转换算子确实是在“转换”——因为它们都是基于当前数据,去做了处理和输出。而在实际应用中,我们往往需要对大量的数据进行统计或整合,从而提炼出更有用的信息。比如之前 word count 程序中,要对每个词出现的频次进行叠加统计。这种操作,计算的结果不仅依赖当前数据,还跟原创 2024-01-23 10:54:30 · 1574 阅读 · 0 评论 -
大数据学习之Flink算子、了解(Source)源算子(基础篇二)
接下来我们创建一个自定义的数据源,实现 SourceFunction 接口。主要重写两个关键方法: run()和 cancel()。run()方法:使用运行时上下文对象(SourceContext)向下游发送数据;cancel()方法:通过标识位控制退出循环,来达到中断数据源的效果。原创 2024-01-23 10:23:27 · 1115 阅读 · 0 评论 -
大数据学习之Flink算子、了解DataStream API(基础篇一)
注: 本文只涉及DataStream。原创 2024-01-23 09:03:37 · 1258 阅读 · 1 评论 -
大数据学习之Flink,了解Flink的多种部署模式
应用模式是对单作业模式的优化,不管是会话模式还是单作业模式,代码都是在客户端是进行执行的,然后由客户端提交给JobManager的,这种方式下客户端会比较耗资源,因为需要下载依赖和发送二进制文件到JobManager。会话模式就是在作业提交之前通过启动集群并创建会话,我们通过这个会话提交任务,所有的任务都在这个会话里,这种方式的特点是集群启动的时候就已经确定了资源,并且后续提交的作业也都在这个会话中,会出现资源的竞争。在YARN模式下部署模式也分三种,分别是会话模式、单作业模式还是应用模式。原创 2024-01-22 15:24:16 · 2110 阅读 · 0 评论 -
大数据学习之Flink,10分钟教你快速上手Flink
在实际的生产环境中,真正的数据流其实是无界的,有开始却没有结束,这就要求我们需 要保持一个监听事件的状态,持续地处理捕获的数据。为了模拟这种场景,我们就不再通过读取文件来获取数据了,而是监听数据发送端主机的 指定端口,统计发送来的文本数据中出现过的单词的个数。需要注意的是,这种代码的实现方式,是基于 DataSet API 的,也就是我们对数据的处理转换,是看作数据集来进行操作的。可以看到,我们将文档中的所有单词的频次,全部统计出来,以二元组的形式在控制台打印输出了。使用 Maven 来进行依赖管理。原创 2024-01-22 00:00:12 · 1052 阅读 · 0 评论 -
大数据学习之Flink,10分钟带你初步了解Flink
高吞吐和低延迟。每秒处理数百万个事件,毫秒级延迟。结果的准确性。Flink 提供了事件时间(event-time)和处理时间(processing-time) 语义。对于乱序事件流,事件时间语义仍然能提供一致且准确的结果。精确一次(exactly-once)的状态一致性保证。可以连接到最常用的存储系统,如 Apache Kafka、Apache Cassandra、Elasticsearch、 JDBC、Kinesis 和(分布式)文件系统,如 HDFS 和 S3。高可用。原创 2024-01-21 23:12:45 · 1380 阅读 · 1 评论 -
大数据学习之Flink、比较不同框架的容错机制
了解Flink的容错机制与其他框架(如Apache Kafka、Apache HBase等)的容错机制的异同点,以便更好地选择适合自己应用的容错方案。原创 2024-01-19 18:10:51 · 575 阅读 · 1 评论 -
大数据学习之Flink、Flink容错机制的注意事项
在实际应用中,需要注意一些问题,如避免在Checkpoint期间发生故障、确保Checkpoint和Savepoint的一致性、处理失败的Checkpoint或Savepoint等。原创 2024-01-19 18:05:35 · 552 阅读 · 1 评论 -
大数据学习之Flink、搞懂Flink的恢复策略
了解如何从故障中恢复数据流。根据Checkpoint和Savepoint的状态,可以选择从最近的一个Checkpoint或Savepoint恢复数据流。原创 2024-01-19 18:04:08 · 653 阅读 · 1 评论 -
大数据学习之Flink、10分钟了解Flink的核心组件以及它们的工作原理
的容错机制的核心组件包括和。等等.. .. ..Checkpoint是用于容错和恢复的机制 是 实现容错机制最核心的功能组件,也是四大基石之一,它在数据流处理过程中定期捕获作业状态的快照,并将其存储在可靠的存储系统中。当作业发生故障时, 可以从最近的 Checkpoint 恢复,重新处理数据流,以保证数据的完整性和一致性。Checkpoint 的频率和大小可以通过配置参数进行设置。则是用备份机制,于手动恢复的点。是提供的一种备份机制,用于将作业的状态保存到一个指定的位置。与 Checkpoint 不同, 不原创 2024-01-19 17:56:48 · 1331 阅读 · 1 评论 -
8 分钟看完这 7000+ 字,Flink 时间窗口和时间语义这对好朋友你一定搞得懂!外送窗口计算和水印一并搞懂!!!
场景1:电商场景中计算每种商品每1min的累计销售额。场景2:我们在观看直播时,直播间的右上角会展示最近1min的在线人数,并且每隔1min会更新一次。场景3:一件商品被推荐给我们时,展示着这个商品累计的销量,并且销量还会不断地更新(假设10s更新一次)。当我们仔细分析这3个场景中计算的实时指标时,会发现它们都可以被一个统一的计算模型所描述出来,原创 2024-01-17 14:36:12 · 1510 阅读 · 0 评论 -
大数据学习之Flink、快速搞懂Flink的容错机制!!!
的容错机制是确保数据流应用程序在出现故障时能够恢复的关键机制。这种机制通过创建分布式数据流和操作符快照来实现,这被称为检查点(Checkpoint)。当系统遇到故障,例如机器故障、网络故障或软件故障时,会回退到最后一个成功的检查点,然后重新启动所有的算子。这样可以确保即使在故障发生后,应用程序的状态也只会反映数据流中的每个记录一次,实现精确一次(exactly-once)的语义。在有状态的流处理中,如果任务继续处理新数据,并不需要“之前的计算结果”,而是需要任务“之前的状态”。因此,选择了将之前某个时间点所原创 2024-01-18 21:09:25 · 1260 阅读 · 1 评论