hive 、spark 、flink之想一想

本文详细介绍了Hive、Spark和Flink这三种大数据处理框架的产生、架构、SQL执行流程以及关键特性,包括任务参数调优、内存管理、数据一致性、Kafka集成等内容,旨在帮助读者理解它们在实际应用中的异同和优化策略。
摘要由CSDN通过智能技术生成

hive

1:hive是怎么产生的?

2:hive的框架是怎么样的?

3:hive 执行流程是什么?

4:hive sql是如何把sql语句一步一步到最后执行的?

5:hive sql任务常用参数调优做过什么?

spark

6:spark 是怎么产生的?

7:spark 框架是怎么样的?

8: spark的DAG是什么?

9:spark中的app,job,stage,task是什么?有什么好处?

10:spark的RDD是什么?与dataframe有什么区别?

11:spark 执行流程是什么?

12:spark sql是如何把sql语句一步一步到最后执行的?

13:spark 与mapreduce的区别是什么?

14: spark的反压原理是什么?主动还是被动?

flink

14:flink是怎么产生的?

15:flink的框架是怎么样的?

16:flink 的内存模型说一说?

17:flink的cp ,sp说一说原理,有什么区别?你们是怎么设置cp的相关参数?

18:flink的四个图是什么?分别都是什么环节对应什么图?

19:flink反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与spark的反压有什么区别?

20:flink的barrier对齐和非对齐是怎么理解的?

21:flink的精准一次和至少一次是怎么理解的?

22:flink任务消费或者写入kafka时,并行度不一致有什么问题?

23:flink如何保证数据一致性?

24:flink对于kafka新增分区时,消费有什么问题吗?

25:flink消费kafka的offset是怎么维护的?自动提交?

26:flink任务如何设置TM,JM的并行度?

27:flink任务做过什么调优?

28:flink任务大状态时做过什么优化?

29:你们用flink做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值