review

本文深入探讨了Flink的任务提交资源、实时数仓分层建模的原因、内存优化及1.10版本的改动。详细解释了Flink的容错机制、checkpoint和state、watermark的概念,以及join分类和RockDB写入流程。同时,文章涉及Flink与Sparkstreaming的区别,Kafka的数据处理、有序消费和数据丢失保障,以及Hive的开窗函数、MR流程和自定义函数。最后,讨论了数据仓库的建模流程和遇到的问题。
摘要由CSDN通过智能技术生成

Flink

1 Flink任务提交使用的资源?

  一般JobManager给2-5G,TaskManager给4-8G,平均并行度为3-8,普遍为4。

2 Flink实时数仓为何分层建模?

  避免重复计算

3 Flink怎么优化内存?flink内存模型 1.10做的最大的改动?

  0.10版本之后重点

4 Flink任务挂了怎么办?有什么保证机制?重启大概要多久?

  任务重启策略(固定延迟重启、故障率重启)

  CheckPoint机制,从最近一次CK时间恢复任务

  状态大小时间不一样,正常重启都在几秒钟时间

5 checkpoint机制和barrier,对齐和不对齐的区别

  JobManager周期性的从Source生成barrier数据,从上游往下游传递,当多并行度时下游需要等待上游barrier到达一致时才触发计算。

6 flink容错机制

  CheckPoint

7 flink checkpoint和state的区别

   Checkpoint是Flink实现容错机制最核心的功能,它能够根据配置周期性地基于Stream中各个Operator/task的状态来生成快照,从而将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序时可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常。Flink的checkpoint机制是state的持久化存储的前提。

   Checkpoint的状态后端默认存储位置为内存级别,由TaskMananger管理;

   checkpoint可以对State进行备份;

8 实际中stage的相关设置,状态中用的哪种数据结构

   状态后端:RocksDB、内存、磁盘(HDFS)

   键控状态:Value、List、Map

9 项目中有用到Flink watermark吗?介绍一些概念

10 乱序程度一般是怎么设置的

   一般根据业务需求,设置为秒级或者分钟级

11 join分类

  regular、interva、temporal、lookup

12 RockDB写入流程是怎么样的?

​ LSm tree

​ 缓存 —》 刷鞋磁盘 sstable

13 Flinksql -> flink DataStream

​ Calcite —》 逻辑计划 --》 优化 RBO --》 物理计划 --》 CBO优化

14 flink中的算子?

(1) 转换算子:map filter flatmap sum max min
(2) sink  : kafka  jdbc 自定义
(3) 重分区: keyby、rebalance、rescale、shuffle

15 window关窗关不了怎么办?

​ 生产场景:

​ 事件时间,

​ 时间进展 >= end - 1ms ===> 触发<

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值