高级大数据研发工程师面试题总结

这是一篇关于高级大数据研发工程师面试的总结,涵盖了Spark处理、SQL解析、shuffle机制、数据倾斜、HDFS流程、HBase与Hive对比、数仓建设等多个核心知识点,还包括MapReduce、Flink、Yarn、Kafka、Zookeeper等技术的面试重点。同时讨论了数据治理、实时数仓和JVM等相关问题,为求职者提供全面的准备指南。
摘要由CSDN通过智能技术生成

1.Spark处理数据流程、并行度决定机制

2.SparkSQL解析SQL的详细流程、hash广播底层实现

3.Spark shuffle、shuffle文件

4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别

5.repartition和coalesce区别

6.Spark内存管理模型

7.Spark中能够进行下推的算子和不能进行下推的算子有哪些?谓词下推?映射(project)下推?

8.数仓数据的存储格式(parquet+snappy),为什么使用parquet、parquet特性、底层结构?parquet事务?parquet进行字段的新增或删除,如何进行数据的历史数据中字段的新增或删除(非重跑数据)?

9.Flink watermark

10.HDFS写数据流程、fsimage作用、如何区分HDFS热数据和冷数据

11.数据倾斜(Spark、Hive、HBase)

12.MapReduce原理,map数、reduce数决定机制

13.说一下 map join 与 reduce join

14.spark和hive的区别

15.udf、udtf、udaf,集成的类、接口,怎么写

16.hive文件存储格式,对比

17.parquet文件和orc文件区别

18.hive内外表区别

19.hive执行的job数是怎么确定的

20.窗口函数中几个rank函数的区别

21.cube、grouping sets、grouping__id

22.你进行过hive sql到spark sql的任务迁

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值