大数据开发笔记(九):Flink基础

  ✨大数据开发笔记推荐:

大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术,总结内容适合大数据开发者学习,希望能够和大家多多交流。https://blog.csdn.net/qq_36816848/article/details/113767367​​​​💯本系列目录:

1️⃣大数据开发笔记(一):HDFS介绍
2️⃣大数据开发笔记(二):Yarn分布式集群操作系统
3️⃣大数据开发笔记(三):Mapreduce
4️⃣大数据开发笔记(四):Hive数据仓库
➡️大数据开发笔记(四):Hive数据仓库
➡️大数据开发笔记(四):Hive数仓调优
5️⃣大数据开发笔记(五):Zookeeper
6️⃣大数据开发笔记(六):Flume基础学习
7️⃣大数据开发笔记(七):Kafka分布式流式处理
8️⃣大数据开发笔记(八):Spark综合总结及Sparksql
9️⃣大数据开发笔记(九):Flink基础
➡️大数据开发笔记(九):Flink综合学习
🔟大数据开发笔记(十):Hbase列存储数据库总结
➡️大数据开发笔记(十):Hbase实践

一、Fink知识框架

Flink快速上手PDF,入门强烈推荐--链接:百度网盘 请输入提取码  提取码:1234

Flink: 分布式、高性能框架,支持实时模式和批处理模式

一、Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎

和Storm/Spark Streaming一样,定位于流式处理系统

区别:

– Storm:速度快,低延迟,吞吐能力低,无法保证精确一致性,必须独立集群 ,慢慢的就被抛弃了

– Spark Streaming:非实时,慢,吞吐高,依赖yarn资源利用率高 (微批处理 -》 准实时的效果)

并不能算是实时的处理引擎,也是批处理,只不过,每个批次很小,然后处理起来很快。让我们感觉有实时的效果。

– Flink:集成以上两种框架的优点,具备丰富的时间流式窗口概念

就是真正意义上的实时处理,真的会来一条数据,就处理一条数据。

二、 处理无界和有界数据

任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。

数据可以被作为 无界 或者 有界 流来处理。

  1. 无界流 有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。
  2. 有界流 有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理

Flink的组件栈有哪些?

        根据 Flink 官网描述,Flink 是一个分层架构的系统,每一层所包含的组件都提供了特定的抽象,用来服务于上层组件。

自下而上,每一层分别代表:

        1.Deploy 层:该层主要涉及了Flink的部署模式,在上图中我们可以看出,Flink 支持包括local、Standalone、Cluster、Cloud等多种部署模式 。

        2.Runtime 层:Runtime层提供了支持 Flink 计算的核心实现,比如:支持分布式 Stream 处理、JobGraph到ExecutionGraph的映射、调度等等,为上层API层提供基础服务 。

        3.API层:API 层主要实现了面向流(Stream)处理和批(Batch)处理API,其中面向流处理对应DataStream API,面向批处理对应DataSet API,后续版本,Flink有计划将DataStream和DataSet API进行统一 。

        4. Libraries层:该层称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);面向批处理支持:FlinkML(机器学习库)、Gelly(图处理)。

Flink集群有哪些角色?各自有什么作用?

     Flink 程序在运行时主要有TaskManager,JobManager,Client三种角色。

  •  JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者,负责接收Flink Job,协调检查点,Failover 故障恢复等,同时管理Flink集群中从节点TaskManager。
  •  TaskManager是实际负责执行计算的Worker,在其上执行Flink Job的一组Task,每个TaskManager负责管理其所在节点上的资源信息,如内存、磁盘、网络,在启动的时候将资源的状态向JobManager汇报。
  •  Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
作为一个大数据开发工程师,面试中可能会涉及到Flink的相关知识。下面是一些常见的问题和建议的答案,供你参考: 1. 请介绍一下Flink的基本概念和特点。 Flink是一个开源的流处理和批处理框架,具有低延迟、高吞吐量、Exactly-Once语义等特点。它支持事件时间和处理时间,并且可以在内存中保存状态。 2. Flink的数据流转换操作有哪些? Flink提供了一系列的数据流转换操作,如map、filter、reduce、keyBy、window等。这些操作可以用来对数据流进行转换、聚合和处理。 3. Flink的窗口是什么?它有哪些类型? 窗口是按照一定的条件对数据流进行切分和分组的机制。Flink支持基于时间或者基于数量的窗口。常见的窗口类型有滚动窗口、滑动窗口和会话窗口。 4. Flink的状态管理方式有哪些? Flink支持两种类型的状态管理方式:键控状态和操作符状态。键控状态是根据输入数据流中的键值对来维护状态,而操作符状态是全局共享的状态。 5. Flink如何实现容错性? Flink采用了事件时间和WAL(Write-Ahead-Log)机制来实现容错性。它会将数据流的元数据和状态信息持久化到可靠的存储系统中,以便在故障发生时进行恢复。 6. Flink的常见部署方式是什么? Flink可以以独立集群模式或者与Hadoop、Kubernetes等集成部署。它可以在YARN、Mesos、Kubernetes等资源管理器上运行。 7. Flink的水位线(Watermark)是什么作用? 水位线是用来处理事件时间乱序的机制。它可以告知Flink事件的最大延迟时间,以便在窗口计算中进行处理。 这些问题只是一些基本的问题,你还可以根据你自己的经验和实际情况进行深入的准备。祝你面试顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GoAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值