面试计划:
复盘目标:
提示:这里可以添加学习目标
- 整理出面试缺点
- 梳理出缺失技能点,补充到技能树
- 整理出难点面试题目
面试内容:
### 字节
字节
- 数仓建模、数仓建模分层、数据质量
- shuffle的理解
- join操作 mr实现
- spark 和flink区别 ,checkpoint的区别
- spark的shuffle和mr 的shuffle 的区别
- spark的stage 划分
- spark的内存划分、oom原理
- mr 和 spark的partitions分区器的底层
- mapparition foreachpariton 底层以及对应节点数据分发
- spark dag 和 taskmamager 先后关系
- spark宽窄依赖
- flink、spark checkpoint底层
- 增加一个字段数仓如何应对
- sql题
- 7日留存率
- 连续登录天数
- 题目:
360
- linux的场景:替换文件中的字符
- |a表: ip 属性 | b表: ip频段 --》不等值连接。
inner join + where - spark 从hdfs 到 dataframe的过程
用友
-
集群搭建过程、技术选型,数仓建模、数仓 分层、数据倾斜
-
spark shuffle 、mr shuffle 、spark reducebykey和groupbykey区别
-
flink和sparkstreaming区别
-
spark 任务提交机制
-
flink 的 watermark
-
HashMap底层、 HashMap和HashTable区别
– 没答上来:
-
spark和flink的checkpoint的区别
-
mysql 索引 b-tree和b+tree的区别
火花思维
- hive的控制 mapjoin参数:
- 小文件的产生原因 :可能是 redece 数量和动态分区
- count(1) count(*)的区别
- left semi join 和left join的区别
- Presto 的json解析 :select json_extract_scalar(json, ‘$.book’);
- flinksql实时数据打宽方法
- regular join
- interval join
- temporal join
- order by 和 sort by 的用法
数据量大的时候 考虑sort by | sort by的表现至少和orderby 一样好,所以优先选择sort by - hive和presto的解析json函数
Hive
select get_json_object(json, ‘$.book’);
Presto
select json_extract_scalar(json, ‘$.book’);
复盘时间:
提示:每天晚上 9.30 - 10.30
例如:
- 周一至周五晚上 8 点—晚上10点
学习产出:
提示:统计计划的总量
例如:
- 面试题问题答案
- 技能点详情
- 技能树补充