Flink
Aying_seeya
专研大数据、Java ...
展开
-
Flink 常见面试汇总
面试题一:应用架构问题:公司怎么提交的实时任务,有多少 Job Manager?解答:我们使用 yarn session 模式提交任务。每次提交都会创建一个新的 Flink 集群,为每一个 job 提供一个 yarn-session,任务之间互相独立,互不影响, 方便管理。任务执行完成之后创建的集群也会消失。线上命令脚本如下: bin/yarn-session.sh -n 7 -s 8 -jm 3072 -tm 32768 -qu root.*.* -nm *-* -d 其中申请 7 个 t原创 2020-07-20 17:31:43 · 457 阅读 · 1 评论 -
Flink——状态管理、算子状态、状态后端、processFunction
1. flink 状态管理包含哪些?Flink 会进行状态管理,包括状态一致性、故障处理以及高效存储和访问,以便开发人员可以专注于应用程序的逻辑。2. flink 状态的类型?算子状态(Operator State)算子状态的作用范围限定为算子任务键控状态(Keyed State)根据输入数据流中定义的键(key) 来维护和访问3. 算子状态的特点?算子状态的作用范围限定为算子任务,由同一并行任务所处理的所有数据都可以访问到相同的状态状态对于同一任务而言是共享的算子状态不原创 2020-07-17 21:15:06 · 1301 阅读 · 1 评论 -
Flink——window函数、时间语义、watermark 相关问答
1、window类型有哪些?(1) TimeWindowTumbling Window (滚动窗口)Sliding Window (滑动窗口)Session Window (会话窗口)Global Window (全局窗口)(2) countWindow(3) 自定义window2、window function 窗口函数有哪些?window function 定义了要对窗口中收集的数据做到计算操作,可分为两类:增量聚合函数(incremental aggregation原创 2020-07-17 12:04:02 · 168 阅读 · 0 评论 -
Flink——transformation过程中的问题
1. flink split流 ,select流?(拆分流&select流)Split 就是将一个DataStream分成两个或者多个DataStreamSelect 就是获取分流后对应的数据示例代码:val env = StreamExecutionEnvironment.getExecutionEnvironmentenv.setParallelism(1)val elements: DataStream[Int] = env.fromElements(1,2,3,4,5,6)/原创 2020-07-15 22:06:54 · 227 阅读 · 0 评论 -
Flink——执行图、并行度、任务链
执行图并行度什么是并行度?什么是stream 的最大并行度?????算子的数据传输 2种形式?任务链flink 的任务链?满足任务链的要求?????原创 2020-07-14 20:15:53 · 260 阅读 · 0 评论 -
Flink——任务、程序与数据流
概念:资源密集任务 非资源密集任务程序与数据流原创 2020-07-14 20:02:53 · 183 阅读 · 0 评论 -
Flink——任务提交流程
相关提问:flink的资源管理器有哪些?flink 为不同的环境和资源管理工具提供了不同的资源管理器,比如YARN、Mesos、K8s,以及standalone部署。原创 2020-07-14 19:25:33 · 277 阅读 · 0 评论 -
Flink——运行的组件有哪些?分别有什么作用?
by the way~taskManager 通过什么控制task数量?task的数量由taskManager内包含的slots的总数量决定,slot的总数量也决定了任务执行的并行度。原创 2020-07-14 19:13:32 · 555 阅读 · 0 评论 -
Flink——flink和sparkStreaming 对比?
批处理(批量)_sparkStreaming处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后,才开始将其通过网络传输到下一个节点适合有边界数据使用DataSet要求高吞吐流处理(逐个)_flink在处理完成一条数据后,将其序列化到缓存中,并立刻通过网络传输到下一个节点,由下一个节点继续处理。适合无边界数据使用DataStream要求低延迟批处理和流处理(DataSet和DataStream)最大的区别在于对时间的处理。另外原创 2020-07-14 11:27:41 · 1419 阅读 · 0 评论 -
Flink——有界流VS无界流
什么是有界流和无界流?有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理有界流,Flink则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无原创 2020-07-14 11:18:19 · 1217 阅读 · 0 评论 -
Flink——流处理的重要特点
一、什么是Flink?官网:https://flink.apache.org/Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。能够提供毫秒级别的延迟,同时保证了数据处理的低延迟、高吞吐和结果的正确性,还提供了丰富的时间类型和窗口计算、Exactly-once语义支持,另外还可以进行状态管理,并提供了 CEP(复杂事件处理)的支持。 Flink在实时分析领域的优势,使得越来越多的公司开始将实时项目向 Flink 迁移,其社区也在快速发展壮大。二、为什原创 2020-07-14 11:15:35 · 1422 阅读 · 0 评论